一、在使用操作之前先一起了解一下八爪魚這個采集數據工具。
相比於python爬蟲,八爪魚使用更加簡便,因為它是所見即得的方式,所以不需要編寫代碼(除了正則表達式,以及xpath,因為如果有布局不一致的頁面,就需要用到)
兩種采集方式,簡易采集vs自定義采集
簡易采集:集成一些熱門網站采集模板,只需要告訴工具兩個內容,1.采集網址 2.所需的賬號密碼
自定義采集:可以靈活設計采集的信息。比較推薦這個,因為一些模板沒辦法滿足自己需求。
二、采集流程步驟
三、可以設置ip代理,UA等反爬(ip代理需要付費)也可以使用自己購買的ip代理接口
流程
接下來實際操作爬取豆瓣電影top250
1.八爪魚安裝https://www.bazhuayu.com 官網自行下載安裝包,下載好后,設置安裝文件夾無腦下一步。
2.注冊免費賬號,打開軟件登陸頁面后點擊注冊賬號。
3.然后。。。就可以愉快的使用采集器了----------目標網站https://movie.douban.com/top250 豆瓣電影評分Top250
1.點擊自定義采集
2.輸入目標網址--並點擊保存-會自動建立一個打開網頁的流程
3.在打開的網頁,滑倒底部,選擇下一頁的頁面元素
4.點擊選擇后頁。提示框中選擇循環點擊單個鏈接,實現循環獲取下一頁的操作
5.單擊每個單元的內容,右邊提示操作選擇選中子元素
6.選中全部→采集以下數據→保存開始采集
7.啟動本地采集,其他兩個是要收費的。。雲采集相當於提交采集操作人家的服務器幫你采集,你電腦關不關機都無所謂了
8.采集完后效果,可以保存svg,html,數據庫等地方
呃。。。由於沒找到順手的錄頻軟件所以就不上傳視頻操作了。。。有問題可以評論問。