[轉]Httrack工具與使用指南


  1. HTTrack工具介紹

    HTTrack是一個網站鏡像工具,本來是用來抓取網站做離線瀏覽用的。但是HTTrack的爬蟲特性和搜索引擎蜘蛛爬蟲非常的像,這也逐漸應用到 SEO(搜索引擎優化)工作中。其實這兩種看似不同的爬蟲做的都是同樣的工作,就是復制網站並存儲下來(網站在搜索引擎中的網頁快照就是被存儲下來的內容)。

HTTrack Website Copier界面如下圖所示:

 

    我們一般用 HTTrack Website Copier 來對網站進行檢測或測試,模擬爬蟲對受保護服務的爬行、抓取、收錄,以來測試我們的防護設備對爬蟲的防護。

  1. HTTrack工具使用

第一步:創立項目的名稱(工程名)

第二步:選擇操作方式,再點擊添加URL”,將我們的網站地址添加進去。

 

    第三步:進入選項,設定爬行和抓取規則等選項

 

在選項中,取消使用代理進行FTP傳輸

進入掃描規則,為HTTrack程序設定爬行和抓取規則,HTTrack里面自帶了一些,可以自己設置,也可以默認。

 

這樣的掃描規則搜索引擎也一定會有的,比如不收錄.exe文件,zip文件等等。然后不收錄一些特定的跟蹤鏈接, 如 ad.doubleclick.net 。你需要把一些搜索引擎爬蟲不收錄的特征加進去。

然后在“搜尋”里面,很多的特征都是現在搜索引擎爬蟲的特征:

 

一般的搜索引擎不會接收cookies,因此測試時我們也將此項去掉。

第四步:一般按照以上設置就可以,其他的默認就行。點擊下一步:

 

在此頁面,我們不用選擇任何項,直接點擊完成就可以進行測試了,如下圖

 

    此時,HTTrack開始對網頁進行爬行,抓取。

原文地址:https://wenku.baidu.com/view/b128946327d3240c8447ef61.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM