爬蟲的危害有多大


整個互聯網的流量中,真人占比有多少?

80% ? 60% ? 50% ?

 

根據 Aberdeen Group 在近期發布的以北美幾百家公司數據為樣本的爬蟲調查報告顯示,2015 年網站流量中的真人訪問僅為總流量的 54.4% ,剩余的流量由 27% 的好爬蟲和 18.6% 的惡意爬蟲構成。

爬與反爬的斗爭從未間斷

惡意爬蟲占比數據與 2013 年和 2014 年相比有所下降,同時真人訪問的占比也有所提升,但這並不意味着惡意爬蟲日漸式微。一個原因是印度、印度尼西亞等高人口總數國家的互聯網新增人口有大幅提升,另一方面,惡意爬蟲制造者更專注於爬蟲的質量而不是數量,如今的惡意爬蟲具有高持續性和可變性。

爬與反爬的斗爭從未間斷。過去的初級爬蟲能很明顯從異常的 Headers 信息甄別,但爬蟲制造者從一次次爬與反爬中總結出可能被封的原因,通過不斷的測試和改善爬蟲程序,更新換代后的高持續性惡意爬蟲通常具有以下特點中的某幾個:

  • 模仿真人行為

  • 加載 Javascript 和外部資源

  • 模擬 cookie 和 useragent

  • 瀏覽器自動化操作

  • 變化的 IP 地址池

可能很多人認為,惡意爬蟲只會威脅到少數以文本為核心價值的網站,其實這些能改變自己請求路徑和請求方式的偽裝者可能潛伏在任何一個網站的每一個角落,文本、圖片、價格、評論、接口、架構等方方面面均有可能成為爬蟲的囊中物。

縱容爬蟲的危害你必須知道

從網站業務安全的角度,縱容這些偽裝者的危害有以下幾點:

1. 核心文本被爬

網站的核心文本可能在幾小時甚至幾分鍾內就被惡意爬蟲抓取並悄無聲息的復制到別的網站。核心內容被復制會極大影響網站和網頁本身在搜索引擎上的排名,低排名會導致訪問量降低和銷量、廣告收益降低的惡性循環。

在內容為王、用戶粘性不高的今天,核心內容很大程度上會影響網站在用戶心目中的價值。若網站以文本為商品作為盈利點,那惡意爬蟲更是影響 KPI 的罪魁禍首。

2. 注冊用戶被掃描

如果在網站的注冊頁面輸入一個已注冊過的號碼,通常會看到“該用戶已注冊”的提示,這一信息也會在請求的 response 中顯示,一些網站的短信接口也有類似邏輯,注冊用戶和非注冊用戶返回的字段和枚舉值會有不同。利用這一業務邏輯,惡意爬蟲通過各類社工庫拿到一批手機號后可以在短時內驗證這批號碼是否為某一網站的注冊用戶。

這個數據有什么利用價值?除了很明顯的違法欺詐外,攻擊者可以將數據打包出售給競爭對手或感興趣的數據營銷公司,完善他們的精准營銷數據。

3. 其他危害

  • 點擊欺詐:點擊欺詐會給網站造成實實在在的利益損失。投放廣告通常是為了觸達符合網站定位的潛在消費者,爬蟲造成的點擊欺詐使得廣告的點擊率虛高,使得網站承擔了本不應承擔的點擊費用。從運營角度出發,訪問量無原因的忽高忽高也不利於分析廣告投放效果。

  • 網站帶寬負擔:對於帶寬有限的中小型網站,爬蟲可能會降低網頁加載速度,影響真實用戶的訪問體驗。

 

事前的甄別預防才是關鍵

惡意爬蟲在給網站帶來可觀訪問量的同時,也帶來了難以估量的威脅和損失。

從實際案例中我們可以看到,惡意爬蟲已經承擔了整個攻擊環節先鋒者的重任,所以在分析網站的業務安全風險時,我們可以更多的關注流量和用戶行為的異常點,盡可能的在惡意行為剛發生時就及時甄別並做出合理的判斷和攔截,必要時,宜采用專業的風險情報系統和數據分析平台進行系統的部署。對於企業來說,事前預防遠比事后補救重要。

 

作者簡介

rianley cheng 爬蟲愛好者
3年互聯網開發經驗,對爬蟲有着一定的了解!曾經也組織編寫過高可用爬蟲!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM