- HTTrack工具介紹
HTTrack是一個網站鏡像工具,本來是用來抓取網站做離線瀏覽用的。但是HTTrack的爬蟲特性和搜索引擎蜘蛛爬蟲非常的像,這也逐漸應用到 SEO(搜索引擎優化)工作中。其實這兩種看似不同的爬蟲做的都是同樣的工作,就是復制網站並存儲下來(網站在搜索引擎中的網頁快照就是被存儲下來的內容)。
HTTrack Website Copier界面如下圖所示:
我們一般用 HTTrack Website Copier 來對網站進行檢測或測試,模擬爬蟲對受保護服務的爬行、抓取、收錄,以來測試我們的防護設備對爬蟲的防護。
- HTTrack工具使用
第一步:創立項目的名稱(工程名)
第二步:選擇操作方式,再點擊“添加URL”,將我們的網站地址添加進去。
第三步:進入“選項”,設定爬行和抓取規則等選項
在選項中,取消使用代理進行FTP傳輸;
進入“掃描規則”,為HTTrack程序設定爬行和抓取規則,HTTrack里面自帶了一些,可以自己設置,也可以默認。
這樣的掃描規則搜索引擎也一定會有的,比如不收錄.exe文件,zip文件等等。然后不收錄一些特定的跟蹤鏈接, 如 ad.doubleclick.net 。你需要把一些搜索引擎爬蟲不收錄的特征加進去。
然后在“搜尋”里面,很多的特征都是現在搜索引擎爬蟲的特征:
一般的搜索引擎不會接收cookies,因此測試時我們也將此項去掉。
第四步:一般按照以上設置就可以,其他的默認就行。點擊下一步:
在此頁面,我們不用選擇任何項,直接點擊完成就可以進行測試了,如下圖
此時,HTTrack開始對網頁進行爬行,抓取。
原文地址:https://wenku.baidu.com/view/b128946327d3240c8447ef61.html