WinHTTrack Website Copier使用說明


WinHTTrack Website Copier使用說明

WinHTTrack Website Copier可以抓取整個網站或者某個網頁、某個論壇帖子。以抓取論壇某個主題帖子為例:

1、打開WinHTTrack Website Copier,下一步

2、工程名可以以帖子標題命名,最好用英文,分類隨意,保存路徑建議非C盤。

 

 

 3、我們要下載若干個帖子,所以操作選擇下載個別文件,web地址可以逐個輸入,也可以用list列表,列表以回車鍵分開,對於有規律的帖子,可以在excel中拖動快速形成。

http://bbs.tianya.cn/post-399-70857-1.shtml

http://bbs.tianya.cn/post-399-70857-2.shtml

http://bbs.tianya.cn/post-399-70857-3.shtml

  4、選項,最大深度選擇1,最大外部鏈接深度選擇0這樣我們只搜索當前帖子或頁面所在的網址內容,不要外鏈到其他網站,所以選擇0.這兩個選項很重要。

 5、鏈接我選擇了試圖捕獲所有的URLs,保存所有指向非HTML文件的鏈接,例如外部的zip文件或圖片文件,首先保存HTML文件,取默認也行,沒看出多少區別。

 6、構造取默認值即可。

 7、搜尋頁面取默認值。

 8、瀏覽器標致取默認值。

 9、確定后直接開始。

 10、特別要注意的是,新建一個工程要重新命名,否則會覆蓋原來的地址!

WinHTTrack Website Copier比Offline Explorer Portable(離線瀏覽器工具)的好處是抓取的文件很精准,沒有多余的外鏈和文件,而且文件都是壓縮之后存儲的,占用空間較小,而且文件數量很小。而Offline Explorer Portable搜索深度設置為1的時候,會搜索本站點的外鏈,這不是我想要的,但是設置搜索深度為0的話,又會出現附件沒有被下載的問題。

缺點是同一個站點的文件不能共用,需要再次下載,如果把列表放在一起下載,以前下載的又會被覆蓋,而Offline Explorer Portable會更新以前下載的目錄,它是以站點為單位進行下載的,網站有更新直接刷新下就好了。

WinHTTrack Website Copier還有個缺點是網址不支持變量,對於有規律的網址,需要借助excel生成。而Offline Explorer Portable有網址宏功能,可以自定義網址的起始頁,例如page=:{1..4}代表1~4頁。

WinHTTrack Website Copier和Offline Explorer Portable都可以下載論壇的附件(包括zip和jpg等類型的圖片附件),但是論壇的圖片不一定能正確抓取,網頁內嵌的圖片可以正常抓取,原因有待探索。

 

2018年10月9日


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM