八爪魚采集器之豆瓣電影Top250爬蟲


一、在使用操作之前先一起了解一下八爪魚這個采集數據工具。

  相比於python爬蟲,八爪魚使用更加簡便,因為它是所見即得的方式,所以不需要編寫代碼(除了正則表達式,以及xpath,因為如果有布局不一致的頁面,就需要用到)

 兩種采集方式,簡易采集vs自定義采集

  簡易采集:集成一些熱門網站采集模板,只需要告訴工具兩個內容,1.采集網址  2.所需的賬號密碼

  自定義采集:可以靈活設計采集的信息。比較推薦這個,因為一些模板沒辦法滿足自己需求。

二、采集流程步驟

 

 

 三、可以設置ip代理,UA等反爬(ip代理需要付費)也可以使用自己購買的ip代理接口

 流程

 

 接下來實際操作爬取豆瓣電影top250

1.八爪魚安裝https://www.bazhuayu.com  官網自行下載安裝包,下載好后,設置安裝文件夾無腦下一步。

2.注冊免費賬號,打開軟件登陸頁面后點擊注冊賬號。

 

3.然后。。。就可以愉快的使用采集器了----------目標網站https://movie.douban.com/top250  豆瓣電影評分Top250

1.點擊自定義采集

2.輸入目標網址--並點擊保存-會自動建立一個打開網頁的流程

3.在打開的網頁,滑倒底部,選擇下一頁的頁面元素

4.點擊選擇后頁。提示框中選擇循環點擊單個鏈接,實現循環獲取下一頁的操作

5.單擊每個單元的內容,右邊提示操作選擇選中子元素

6.選中全部→采集以下數據→保存開始采集

 

7.啟動本地采集,其他兩個是要收費的。。雲采集相當於提交采集操作人家的服務器幫你采集,你電腦關不關機都無所謂了

8.采集完后效果,可以保存svg,html,數據庫等地方

 

 呃。。。由於沒找到順手的錄頻軟件所以就不上傳視頻操作了。。。有問題可以評論問。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM