Wget/httrack 爬取整站資源

本文轉載自查看原文 2018-05-20 14:18 1001 滲透測試筆記

wget 是一個從網絡上自動下載文件的自由工具，支持通過 HTTP、HTTPS、FTP 三個最常見的 TCP/IP協議下載，並可以使用 HTTP 代理。"wget" 這個名稱來源於 “World Wide Web” 與 “get” 的結合。

[root@localhost ~]# yum install -y wget
[root@localhost ~]# wget -c -r -npH -k -nv http://www.baidu.com

參數說明
-c：斷點續傳
-r：遞歸下載
-np：遞歸下載時不搜索上層目錄
-nv：顯示簡要信息
-nd：遞歸下載時不創建一層一層的目錄,把所有文件下載當前文件夾中
-p：下載網頁所需要的所有文件(圖片,樣式,js文件等)
-H：當遞歸時是轉到外部主機下載圖片或鏈接
-k：將絕對鏈接轉換為相對鏈接,這樣就可以在本地脫機瀏覽網頁了
-L:     只擴展相對連接，該參數對於抓取指定站點很有用，可以避免向宿主主機

wget.exe -d -S -O - http://lyshark.com # 顯示請求和響應的headers
wget -c -r -npH -k -nv http://lyshark.com # 爬取整個頁面
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10"

HTTrack是一個免費並易於使用的線下瀏覽器工具，全稱是HTTrack Website Copier for Windows，它能夠讓你從互聯網上下載整個網站進行線下瀏覽。

[root@localhost ~]# yum install -y httrack
[root@localhost ~]# httrack "https://www.baidu.com" -o "/root" "+*.https://www.baidu.com*" -v

頁面渲染工具

#安裝所需要的包：
yum install -y yum-utils device-mapper-persistent-data lvm2
docker pull scrapinghub/splash
docker run -d -p 8050:8050 scrapinghub/splash

#通過瀏覽器訪問8050端口驗證安裝是否成功

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Web偵察工具HTTrack （爬取整站） wget遞歸下載整站第6章通過CrawlSpider對招聘網站進行整站爬取 BOSS 直聘整站爬取思路總結 wget 爬取網站網頁爬蟲第六篇：scrapy框架爬取某書網整站爬蟲爬取 Ins資源批量爬取（二）通過CrawlSpider對招聘網站進行整站爬取（拉勾網實戰） Python爬蟲-爬取音樂資源數據挖掘_wget整站下載