wget 抓取網頁所有的內容


wget的用途

在進行爬蟲分析的時候,有些時候把網站所有的內容抓取下來進行斷點調試,js解析都更加方便

wget使用方法

  1. 快速抓取一個網頁
wget -c -r -npH -k http://www.baidu.com
  1. 參數分析
-c:斷點續傳 
-r:遞歸下載 
-np:遞歸下載時不搜索上層目錄 
-nd:遞歸下載時不創建一層一層的目錄,把所有文件下載當前文件夾中 
-p:下載網頁所需要的所有文件(圖片,樣式,js文件等) 
-H:當遞歸時是轉到外部主機下載圖片或鏈接 
-k:將絕對鏈接轉換為相對鏈接,這樣就可以在本地脫機瀏覽網頁了

wget高級用法

  1. 請求網頁時添加cookie參數

首先設定一下cookie的值(也可以直接拼接)

cookie=****

然后

wget --header="Cookie:$cookie" "鏈接地址"
  1. 關閉rebot協議下載網頁
wget -r -p -k -np -nc -e robots=off http://www.example.com/mydir/
  1. 下載到指定的文件夾里
wget --no-check-certificate -E -H -k -K -p -e robots=off -Pgame  -i ./list.txt


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM