利用wget命令實現爬蟲的簡單抓取


wget命令相信很多人並不陌生,但是絕大多數僅僅是利用它下載文件使用。其實它還有個作用,就是爬取數據

它雖然不如Python,Java手寫代碼那么靈活,但是對於需求簡單的,用這個足夠了。

話不多說,首先上抓取命令(以抓取博客園為例):

wget -o /tmp/wget.log -P /root/data  --no-parent --no-verbose -m -D www.cnblogs.com   -N --convert-links --random-wait -A html,HTML,shtml,SHTML https://www.cnblogs.com/

上面命令直接在linux執行,就能實現抓取。

參數解釋:

-o:存放日志路徑。

-P:存放數據目錄。

--no-parent: 不追溯至父目錄。

--no-verbose:關閉詳盡輸出,但不進入安靜模式。

-m:-N -r -l inf --no-remove-listing 的縮寫形式。

-D:逗號分隔的可接受的域列表。

-N:只獲取比本地文件新的文件。

--convert-links:讓下載得到的 HTML 或 CSS 中的鏈接指向本地文件。

--random-wait:隨機等待時間。

-A:逗號分隔的可接受的擴展名列表。

這里僅僅列出了上面用到的命令,其它的wget命令可以使用wget --help來查看。

最后放下抓取效果:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM