WinHTTrack Website Copier使用說明
WinHTTrack Website Copier可以抓取整個網站或者某個網頁、某個論壇帖子。以抓取論壇某個主題帖子為例:
1、打開WinHTTrack Website Copier,下一步

2、工程名可以以帖子標題命名,最好用英文,分類隨意,保存路徑建議非C盤。

3、我們要下載若干個帖子,所以操作選擇下載個別文件,web地址可以逐個輸入,也可以用list列表,列表以回車鍵分開,對於有規律的帖子,可以在excel中拖動快速形成。
http://bbs.tianya.cn/post-399-70857-1.shtml
http://bbs.tianya.cn/post-399-70857-2.shtml
http://bbs.tianya.cn/post-399-70857-3.shtml

4、選項,最大深度選擇1,最大外部鏈接深度選擇0。這樣我們只搜索當前帖子或頁面所在的網址內容,不要外鏈到其他網站,所以選擇0.這兩個選項很重要。

5、鏈接我選擇了試圖捕獲所有的URLs,保存所有指向非HTML文件的鏈接,例如外部的zip文件或圖片文件,首先保存HTML文件,取默認也行,沒看出多少區別。

6、構造取默認值即可。

7、搜尋頁面取默認值。

8、瀏覽器標致取默認值。

9、確定后直接開始。
10、特別要注意的是,新建一個工程要重新命名,否則會覆蓋原來的地址!
WinHTTrack Website Copier比Offline Explorer Portable(離線瀏覽器工具)的好處是抓取的文件很精准,沒有多余的外鏈和文件,而且文件都是壓縮之后存儲的,占用空間較小,而且文件數量很小。而Offline Explorer Portable搜索深度設置為1的時候,會搜索本站點的外鏈,這不是我想要的,但是設置搜索深度為0的話,又會出現附件沒有被下載的問題。
缺點是同一個站點的文件不能共用,需要再次下載,如果把列表放在一起下載,以前下載的又會被覆蓋,而Offline Explorer Portable會更新以前下載的目錄,它是以站點為單位進行下載的,網站有更新直接刷新下就好了。
WinHTTrack Website Copier還有個缺點是網址不支持變量,對於有規律的網址,需要借助excel生成。而Offline Explorer Portable有網址宏功能,可以自定義網址的起始頁,例如page=:{1..4}代表1~4頁。
WinHTTrack Website Copier和Offline Explorer Portable都可以下載論壇的附件(包括zip和jpg等類型的圖片附件),但是論壇的圖片不一定能正確抓取,網頁內嵌的圖片可以正常抓取,原因有待探索。
2018年10月9日
