關於八爪魚
八爪魚, 是一款簡單易操作的爬蟲工具。當然這種工具也有一定的局限性,可定制性肯定沒有用一些爬蟲框架(scrapy等)好(畢竟代碼是自己寫的,哈哈)。
使用八爪魚
最近,使用八爪魚爬取了一些微博的熱門評論。當然,使用新浪微博API也是可以的。但是,自己為了快嘛,也想了解一下這個工具。
八爪魚軟件中基本爬取工作都有教程的。下面,我就以爬取微博熱門評論,講解一下,足以應付八爪魚的基本使用了。
安裝
八爪魚目前只有Windows版本,沒有Mac版本,所以我在虛擬機中裝了一個八爪魚。
八爪魚下載, 下載安裝無腦下一步就好了。
登陸的時候需要提前注冊賬號,然后用注冊號的賬號登錄即可。
爬蟲任務配置
- 創建任務(高級模式)

- 設置基本信息
- 設置工作流程(主要參考教程)



說明:點擊元素設置的是點擊熱門,因為默認是全部評論,所以要先點擊一下這個元素。其中,要把“在新標簽中打開頁面”勾取消掉,然后設置Ajax加載數據,Ajax加載超時設置大概為2秒。這樣做的原因在於,微博中全部評論和熱門評論的請求用的是Ajax,Ajax的好處就是在不刷新頁面的時候進行請求。頁面都沒有刷新,當然不能在新標簽中打開頁面。 還有就是因為是Ajax請求,所以一定要設置超時,不然下一步不能檢測到變化,就不會進行。
點擊翻頁也是這樣設置,設置Ajax超時,時間到了就說明請求結束了,下一步驟才能檢測到,然后才能開始。不這樣設置的話,會發現爬取了一頁然后就不動了,過一會兒就說結束了。
總結: 就是網頁中是進行Ajax請求(簡單的識別就是點擊后頁面鏈接沒有變化的時候),就需要進行如此設置。
問題: 1) 如果將找好的評論鏈接設置為爬蟲鏈接的時候,每次都會跳轉到登錄頁面,那么就在八爪魚中登錄即可。
爬蟲以及導出數據
然后右下角有一個導出按鈕,可以導出為Text, Html, Excel, 數據庫等格式。
參考文獻:
八爪魚官網
