wget命令相信很多人並不陌生,但是絕大多數僅僅是利用它下載文件使用。其實它還有個作用,就是爬取數據。
它雖然不如Python,Java手寫代碼那么靈活,但是對於需求簡單的,用這個足夠了。
話不多說,首先上抓取命令(以抓取博客園為例):
wget -o /tmp/wget.log -P /root/data --no-parent --no-verbose -m -D www.cnblogs.com -N --convert-links --random-wait -A html,HTML,shtml,SHTML https://www.cnblogs.com/
上面命令直接在linux執行,就能實現抓取。
參數解釋:
-o:存放日志路徑。
-P:存放數據目錄。
--no-parent: 不追溯至父目錄。
--no-verbose:關閉詳盡輸出,但不進入安靜模式。
-m:-N -r -l inf --no-remove-listing 的縮寫形式。
-D:逗號分隔的可接受的域列表。
-N:只獲取比本地文件新的文件。
--convert-links:讓下載得到的 HTML 或 CSS 中的鏈接指向本地文件。
--random-wait:隨機等待時間。
-A:逗號分隔的可接受的擴展名列表。
這里僅僅列出了上面用到的命令,其它的wget命令可以使用wget --help來查看。
最后放下抓取效果: