八爪魚 爬取微博中的圖片到本地
批量爬取大量的好看的圖片 到自己的本地電腦 哈哈哈哈哈哈
抓取的微博圖片
詳細步驟:http://www.bazhuayu.com/tutorial/wbpiccj
微博圖片采集
本文介紹使用八爪魚采集微博圖片的方法。
微博上有很多博主,會發布很多高質量的圖片。很多時候,我們想把這些高質量的圖片保存下來,怎么辦,一張一張另存為?使用八爪魚采集器,只需做好規則,即可全自動地將我們的想要的圖片采集下來。主要經過兩大步:先將圖片URL采集下來;再通過八爪魚提供的圖片批量下載工具,將URL批量轉化為圖片。
采集網站:
https://weibo.com/mdabao?refer_flag=1001030101_&is_all=1#_rnd1516333013843
本文僅以采集某博主的發布的圖片為例。在實際操作過程中,大家可根據需要,更換要采集的博主。還可使用URL列表循環,批量采集多個微博博主發布的全部圖片。本文采集的微博圖片,具體字段為:博主ID、發博時間、微博URL、微博發送方式、微博內容、圖片地址、圖片保存文件夾。
在開始之前,請大家注意,如果沒有在八爪魚中登錄過,需先建立一個登錄流程。微博登錄教程請參考:
http://mp.weixin.qq.com/s/n9-wRnC5GqcBfi2KOfOs6g
使用功能點:
l AJAX滾動教程
步驟1:創建微博圖片采集任務
1)進入主界面,選擇“自定義模式”,點擊“立即使用”
2)將要采集的網址復制粘貼到網站輸入框中,點擊“保存網址”
步驟2:創建翻頁循環
1)系統自動打開網頁,進入微博。觀察網頁結構,當把頁面下拉至底部的時候,會出現“正在加載中,請稍后”的字樣,隨着我們的下拉,頁面會有新的數據加載出來。經過2次下拉加載,此頁面達到最底部,出現“下一頁”按鈕
此網頁涉及Ajax下拉加載,需要對其進行一些高級選項的設置。打開“高級選項”,勾選“頁面加載完成后向下滾動”,設置滾動次數為“3次”,每次間隔“3秒”,滾動方式為“直接滾動到底部”,最后點擊“確定”
注意: 這里的滾動次數及間隔時間,需要針對網站情況進行設置,並不是絕對的。一般情況下,間隔時間>網站加載時間即可。有時候網速較慢,網頁加載很慢,還需根據具體情況進行調整。
具體請看:八爪魚7.0教程——AJAX滾動教程
2)將頁面下拉到底部,點擊“下一頁”按鈕,在右側的操作提示框中,選擇“循環點擊下一頁”
與“打開網頁”類似,此步驟同樣涉及Ajax下拉加載。打開“高級選項”,勾選“頁面加載完成后向下滾動”,設置滾動次數為“次”,每次間隔“3秒”,滾動方式為“直接滾動到底部”,最后點擊“確定”
注意事項同上
步驟3:創建列表循環
1)移動鼠標,選中頁面里的第一條微博鏈接。選中后,系統會自動識別頁面里的其他相似鏈接。在右側操作提示框中,選擇“選中全部”
2)選擇“循環點擊每個鏈接”,以創建一個列表循環
步驟4:提取微博文本和圖片
1)系統會自動點擊進入第一條微博的詳情頁。微博詳情頁中,我們首先采集博主ID、發博時間、微博內容、微博URL、微博發送方式。點擊要采集的字段,在右側的操作提示框中,選擇“采集該元素的文本”(采集微博URL,則選擇“采集該鏈接地址”)
2)字段信息選擇完成后,選中相應的字段,可以進行字段的自定義命名。完成后,點擊“確定”
3)點擊頁面中第一張圖片,在操作提示框中,選擇“選中全部”
4)選擇“循環點擊每個圖片”
由於此網頁涉及Ajax技術,我們需要進行一些高級選項的設置。選中“點擊元素”步驟,打開“高級選項”,勾選“Ajax加載數據”,設置時間為“2秒”
注:AJAX即延時加載、異步更新的一種腳本技術,通過在后台與服務器進行少量數據交換,可以在不重新加載整個網頁的情況下,對網頁的某部分進行更新。
表現特征:a、點擊網頁中某個選項時,大部分網站的網址不會改變;b、網頁不是完全加載,只是局部進行了數據加載,有所變化。
驗證方式:點擊操作后,在瀏覽器中,網址輸入欄不會出現加載中的狀態或者轉圈狀態。
5)點擊第一張圖片,在彈出的操作提示框中,選擇“采集該圖片的地址”。圖片的地址已經被采集下來,將此字段修改為“圖片地址”
6)接下來為將圖片URL批量導出為圖片做准備。點擊“添加特殊字段”,選擇“添加固定字段”,輸入“D:\微博圖片采集\”,其中“D:\\”為圖片存儲盤,“微博圖片采集”為圖片保存文件夾名
步驟5:數據采集及導出
1)點擊左上角的“開始采集”,選擇啟動“本地采集”
注:本地采集占用當前電腦資源進行采集,如果存在采集時間要求或當前電腦無法長時間進行采集可以使用雲采集功能,雲采集在網絡中進行采集,無需當前電腦支持,電腦可以關機,可以設置多個雲節點分攤任務,10個節點相當於10台電腦分配任務幫你采集,速度降低為原來的十分之一;采集到的數據可以在雲上保存三個月,可以隨時進行導出操作。
2)采集完成后,會跳出提示,選擇“導出數據”。選擇“合適的導出方式”,將采集好微博發博數據導出,這里我們選擇excel作為導出為格式
3)數據導出后如下圖所示
步驟6:將圖片URL批量轉換為圖片
經過如上操作,我們已經得到了要采集的圖片的URL。接下來,再通過八爪魚專用的圖片批量下載工具,將采集到的圖片URL中的圖片,下載並保存到本地電腦中。
圖片批量下載工具:https://pan.baidu.com/s/1c2n60NI
1)下載八爪魚圖片批量下載工具,雙擊文件中的MyDownloader.app.exe文件,打開軟件
2)打開File菜單,選擇從EXCEL導入(目前只支持EXCEL格式文件)
3)進行相關設置,設置完成后,點擊OK即可導入文件
選擇EXCEL文件:導入你需要下載圖片地址的EXCEL文件
EXCEL表名:對應數據表的名稱
文件URL列名:表內對應URL的列名稱
保存文件夾名:EXCEL中需要單獨一個列,列出圖片想要保存到文件夾的路徑,可以設置不同圖片存放至不同文件夾
如果要把文件保存到文件夾,則路徑需要以“\”結尾,例如:“D:\同步\”,如果要下載后按照指定的文件名保存,則需要包含具體的文件名,例如“D:\同步\1.jpg”
如果下載的文件路徑和文件名完全一樣,則原先存在的文件會被刪除
3)點擊OK后,界面如圖所示,再點擊“開始下載”
4)頁面下方會顯示圖片下載狀態
5)找到自己設定的圖片保存文件夾,可以看到,圖片URL已經批量轉換為圖片了
注意 :必須安裝軟件 不然就會報錯的啦 (自己試了很長時間才搞對的)
之后就可以導出到本地啦
本地位置: