手把手視頻:萬能開源Hawk抓取動態網站



Hawk是沙漠之鷹歷時五年開發的開源免費網頁抓取工具(爬蟲),無需編程,全部可視化。

自從上次發布Hawk 2.0過了小半年,可是還是有不少朋友通過郵件或者微信的方式詢問如何使用。看文檔還是不如視頻教學方便,沙漠君決定錄播幾段視頻來幫助大家~

軟件最新的下載地址(或點擊原文)

https://github.com/ferventdesert/Hawk/releases

image_1bdqbq892h7j5sh1epmig6ufp.png-104.3kB

下面是視頻內容,在騰訊視頻可以開啟高清,實測清晰度尚可,當然你也可以在百度雲盤中下載以下全部視頻。

http://pan.baidu.com/s/1dE5D40h

1. 使用Hawk抓取百度百家新聞

這是抓取百度百家新聞(http://baijia.baidu.com/)完整的例子,你可以了解到:

  • 如何抓取動態頁面和超級模式
  • 如何獲取網頁正文信息
  • 如何導出抓取的數據

image_1bdqbeavkq5q1kct1unnljm19e79.png-274.7kB
內置的播放器無法調節清晰度。可在PC訪問:

https://v.qq.com/x/page/a03878tihmx.html

2. Hawk答疑

這是一個綜述,對大家感興趣的話題答疑解惑,包括:

  • 如何使用手氣不錯(相比1.0版本優化很多)
  • 文檔在哪里?
  • 如何連接數據庫
  • 其他一些使用上的問題

可在PC訪問:

https://v.qq.com/x/page/n0387axmgg5.html

3. 歷史視頻

這些視頻都是針對1.0在2016年上半年錄制的,由於網站改版,或增加了防爬蟲(如鏈家),因此在使用上會有較大區別,僅供各位用戶參考。

  • 抓取鏈家(目前鏈家防爬蟲非常嚴格,視頻僅供參考)

http://v.qq.com/x/page/w0189607h92.html

  • 大眾點評(沒想到播放量高達8.3W)

https://v.qq.com/x/page/z01891n1rgh.html

  • 獲取最近地鐵站(Hawk的功能可不局限於爬蟲)

https://v.qq.com/x/page/x01898xojwg.html

4. 如何下載工程案例

Hawk本身提供了一系列例子(雖然基本都是2016年上半年的),不少已經過期了。

有些朋友直接用“右鍵另存為”下載,這樣保存的是html頁面,有兩種方法可以下載:

  • 如果你會用git, 在shell里直接執行

git clone git@github.com:ferventdesert/Hawk-Projects.git

  • 手動下載整個文件夾: 在首頁上Download ZIP

4. 歡迎共同改進Hawk

為什么要重提再度改進Hawk呢?

  • 高不成低不就: 因為如果一件好用的工具分數是0.8的話,Hawk正好在0.74,因為一些其實很簡單的問題,用戶就卡在那里無從下手。
  • 可用性/UI設計急需提高: 特別需要懂產品/UI的朋友一起協助
  • 軟件依然有不少bugs
  • etlpy(Python版本的Hawk)開發雖完成,但有相當陡峭的學習曲線

萬里長征走了9500里,卻在最后的一段路上止步不前,給世人留下一個半吊子,終究是不好的。所以2017年一個重要的任務便是進一步完善它,走完剩下的500里。

因此,如果你對Hawk,爬蟲或是軟件設計感興趣的話,可以考慮和沙漠君一起改進它。只要你有任何靠譜的建議,都可以告訴我,我會集中起來一起改進。也許你可能獲得不了什么經濟上的補償(沙漠君也沒有),但總比網絡上各種野路子收費軟件強很多。我們做了一件能幫助幾十萬甚至百萬人的事情。

雖然工作非常忙,因此各種回復不及時,不過有任何問題依然可以給我發郵件:

buptzym@qq.com

最后祝使用Hawk愉快!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM