利用wget命令實現爬蟲的簡單抓取

本文轉載自查看原文 2020-06-04 11:18 893 工具使用/ Linux/ wget爬蟲

wget命令相信很多人並不陌生，但是絕大多數僅僅是利用它下載文件使用。其實它還有個作用，就是爬取數據。

它雖然不如Python，Java手寫代碼那么靈活，但是對於需求簡單的，用這個足夠了。

話不多說，首先上抓取命令(以抓取博客園為例)：

wget -o /tmp/wget.log -P /root/data  --no-parent --no-verbose -m -D www.cnblogs.com   -N --convert-links --random-wait -A html,HTML,shtml,SHTML https://www.cnblogs.com/

上面命令直接在linux執行，就能實現抓取。

參數解釋：

-o：存放日志路徑。

-P：存放數據目錄。

--no-parent：不追溯至父目錄。

--no-verbose：關閉詳盡輸出，但不進入安靜模式。

-m：-N -r -l inf --no-remove-listing 的縮寫形式。

-D：逗號分隔的可接受的域列表。

-N：只獲取比本地文件新的文件。

--convert-links：讓下載得到的 HTML 或 CSS 中的鏈接指向本地文件。

--random-wait：隨機等待時間。

-A：逗號分隔的可接受的擴展名列表。

這里僅僅列出了上面用到的命令，其它的wget命令可以使用wget --help來查看。

最后放下抓取效果：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 用wget命令的爬蟲功能抓取網頁到本地文件爬蟲抓取分頁數據的簡單實現使用selenium實現簡單網絡爬蟲抓取MM圖片 python簡單爬蟲，抓取郵箱 Python3網絡爬蟲(一)：利用urllib進行簡單的網頁抓取 Nodejs實現爬蟲抓取數據 Java爬蟲，信息抓取的實現 Python3 爬蟲實例（一）-- 簡單網頁抓取 .net core 實現簡單爬蟲—抓取博客園的博文列表 Python3簡單爬蟲抓取網頁圖片