如何通過 User-Agent 識別百度蜘蛛


如果有大量的百度蜘蛛抓取網站就需要注意了:有可能是其他爬蟲偽造百度蜘蛛惡意抓取網站。

如果遇到這種情況,這時候就需要查看日志來確定是不是真正的百度蜘蛛(baidu spider)。搜索引擎蜘蛛、用戶訪問、爬蟲等訪問都會留下 User-Agent。

我們可以通過 User-Agent 大概判斷是不是百度蜘蛛(baidu spider)。

百度 User-Agent 主要有以下幾個:

  • 百度 PC 蜘蛛 User-Agent 是:

    Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html

  • 百度移動蜘蛛 User-Agent 是:

    Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  • 還有一個是 Baiduspider-render/2.0 User-Agent 是:

    Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

這個 Baiduspider-render/2.0 主要是為了給搜索用戶更好的體驗、對站點實現更好地索引和呈現,百度搜索需要訪問網站的 CSS、Javascript 和圖片信息,以便更精准地理解頁面內容,實現搜索結果最優排名,百度搜索會全面啟用最新 User-Agent 來訪問站點的上述資源。

Baiduspider-render/2.0 不同於 Baiduspider/2.0,Baiduspider-render/2.0 可以獲取 Javascript 內容,實現動態渲染。

還有其他的百度產品的 User-Agent:

  • 百度圖片搜索 User-Agent:

    Baiduspider-image+(+http://www.baidu.com/search/spider.htm)

  • 百度視頻搜索 User-Agent:

    Baiduspider-video

  • 百度新聞搜索 User-Agent:

    Baiduspider-news

  • 百度搜藏 User-Agent:

    Baiduspider-favo

  • 百度聯盟 User-Agent:

    Mozilla/5.0 (compatible; Baiduspider-cpro; +http://www.baidu.com/search/spider.html)

  • 商務搜索 User-Agent:

    Baiduspider-ads

以上總結了百度所有產品的 User-Agent,但是僅僅通過 User-Agent 識別百度蜘蛛(baidu spider)是完全不夠的,因為 User-Agent 完全可以被偽造

如何偽造 User-Agent 與如何通過 IP 識別百度蜘蛛(baidu spider)我將在以后的文章中詳述。

參考資料:

1、爬蟲識別 - 百度蜘蛛

2、站長平台 - 常見問題解答


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM