wget的用途
在進行爬蟲分析的時候,有些時候把網站所有的內容抓取下來進行斷點調試,js解析都更加方便
wget使用方法
- 快速抓取一個網頁
wget -c -r -npH -k http://www.baidu.com
- 參數分析
-c:斷點續傳
-r:遞歸下載
-np:遞歸下載時不搜索上層目錄
-nd:遞歸下載時不創建一層一層的目錄,把所有文件下載當前文件夾中
-p:下載網頁所需要的所有文件(圖片,樣式,js文件等)
-H:當遞歸時是轉到外部主機下載圖片或鏈接
-k:將絕對鏈接轉換為相對鏈接,這樣就可以在本地脫機瀏覽網頁了
wget高級用法
- 請求網頁時添加cookie參數
首先設定一下cookie的值(也可以直接拼接)
cookie=****
然后
wget --header="Cookie:$cookie" "鏈接地址"
- 關閉rebot協議下載網頁
wget -r -p -k -np -nc -e robots=off http://www.example.com/mydir/
- 下載到指定的文件夾里
wget --no-check-certificate -E -H -k -K -p -e robots=off -Pgame -i ./list.txt