GitHub 上有哪些優秀的 Python 爬蟲項目?


GitHub 上有哪些優秀的 Python 爬蟲項目?

大型爬蟲項目:

Photon

一個高速的爬蟲程序。最大的特點是它不是像普通爬蟲那樣只爬取結構和靜態資源,Photon被偏向設計為信息收集爬蟲,它有非常靈活的規則設置和利於閱讀的導出結果。

Photon提供的各種選項可以讓用戶按照自己的方式抓取網頁。

它最厲害的地方在於數據提取

默認情況下,Photon在抓取時會提取以下數據:

網址(范圍內和范圍外的)

帶參數的網址(http://example.com/gallery.php?id=2)

情報(電子郵件,社交媒體帳戶,亞馬遜水桶等)

文件(pdf,png,xml等)

JavaScript等文件

基於自定義正則表達式模式的字符串

提取的信息按下圖方式保存。

img

PySpide

一個國人編寫的強大的網絡爬蟲系統並帶有強大的WebUI。采用Python語言編寫,分布式架構,支持多種數據庫后端,強大的WebUI支持腳本編輯器,任務監視器,項目管理器以及結果查看器。

它可以實現:

  • python 腳本控制,可以用任何你喜歡的html解析包(內置 pyquery)
  • WEB 界面編寫調試腳本,起停腳本,監控執行狀態,查看活動歷史,獲取結果產出
  • 數據存儲支持MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL 及 SQLAlchemy
  • 隊列服務支持RabbitMQ, Beanstalk, Redis 和 Kombu
  • 支持抓取 JavaScript 的頁面
  • 組件可替換,支持單機/分布式部署,支持 Docker 部署
  • 強大的調度控制,支持超時重爬及優先級設置
  • 支持python2&3

實用型爬蟲項目:

financical.py

財務報表下載小助手。

動態示意圖:

img

video_downloader

愛奇藝等主流視頻網站的VIP視頻破解助手(暫只支持PC和手機在線觀看VIP視頻!)

感謝Python3二維碼生成器作者:https://github.com/sylnsfar/qrcode

無需Python3環境,在Windows下,解壓即用!

BSGS_Rent

爬取並分析北上廣深鏈家網租房房源全部數據,得出租金分布,租房考慮因素等建議(北上廣深租房圖鑒)

主要的文件有:

  • house_data_crawler.py:爬取北上廣深租房房源數據的代碼(帶說明和注釋,需要安裝mongodb)
  • info.py:租房類型和各城市各區域的信息,供house_data_crawler.py調用
  • 北上廣深租房圖鑒.ipynb:Jupyter notebook代碼,對北上廣深租房數據進行分析
  • data_sample.csv:租房數據,這里只隨機選擇了12000條,每城市3000條

12306

用Python搶火車票簡單代碼,有爬蟲基礎就很好操作。

img

webspider

本系統是一個主要使用python3, celery和requests來爬取職位數據的爬蟲,實現了定時任務,出錯重試,日志記錄,自動更改Cookies等的功能,並使用ECharts + Bootstrap 來構建前端頁面,來展示爬取到的數據。

img

downloader.py

一個可以用於下載圖片、視頻、文件的小工具,有下載進度顯示功能。稍加修改即可添加到自己的爬蟲中。

img

biqukan.py

《筆趣看》盜版小說網站,爬取小說工具

webspider

本系統是一個主要使用python3, celery和requests來爬取職位數據的爬蟲,實現了定時任務,出錯重試,日志記錄,自動更改Cookies等的功能,並使用ECharts + Bootstrap 來構建前端頁面,來展示爬取到的數據。

geetest

爬蟲最大的敵人之一是什么?沒錯,驗證碼!Geetest作為提供驗證碼服務的行家,市場占有率還是蠻高的。

動態示意圖:

img

Nyspider

各種爬蟲---大眾點評,安居客,58,人人貸,拍拍貸, IT桔子,拉勾網,豆瓣,搜房網,ASO100,氣象數據,貓眼電影,鏈家,PM25.in...

spider

以hao123為入口頁面,滾動爬取外鏈,收集網址,並記錄網址上的內鏈和外鏈數目,記錄title等信息。windows7 32位上測試,目前每24個小時,可收集數據為10萬左右

CVPR2019

2019計算機視覺頂會CVPR全部論文PDF論文爬蟲

bdwenku-spider

百度文庫word文章爬取,學生黨超實用!支持txt,word,pdf,ppt類型資源的下載

其它有趣的Python爬蟲小項目:

LiveStream

爬取了西瓜直播(今日頭條旗下APP)各類型游戲的主播直播數據107.5萬條,並分析直播平台和游戲主播行業是否真如我們想象般的暴利。適合Python爬蟲學習者、Python數據分析學習者、Pandas使用者、數據可視化學習者

Zhihu -Spider

知乎關系網爬蟲

LaborDay

按全國各個城市抓取飛豬“景點門票”欄的景點門票銷售數據,並且分析五一哪些景點會人擠人,哪些景點值得一去。同樣適合Python爬蟲學習者、Python數據分析學習者、Pandas使用者、數據可視化學習者學習。

KrisWu

隨機抓取吳亦凡發表《大碗寬面》微博的微博轉發數據10萬條,並分析該條微博的真假轉發比例,以及大家對於這首歌的情感傾向如何

ESL

爬取了外籍人員招聘網站JobLEADChina上的外籍英語老師招聘數據945條,萬行教師人才網上的英語老師招聘數據5780條,以及微信群成員信息498條,分析外教教師的招聘狀況。洋外教的工資學歷情況一目了然。

Wechat_article_collector

一個微信公眾號文章采集器,用於采集微信公眾號文章並保存至word文檔。

項目很簡單,主要包括以下文件:

  • article_collector.py:主文件,用於爬取公眾號文章以及把文章儲存為word文檔;
  • add_hyperlinks.py:用於在word文檔中添加超鏈接
  • gzh.txt:待爬取的公眾號列表
  • 比心.JPG:用來撒狗糧的,不用管

one_hour_spider

一小時入門Python3網絡爬蟲。

內容有包括:

網絡小說下載(靜態網站)-biqukan

優美壁紙下載(動態網站)-unsplash

愛奇藝VIP視頻下載

PUBG-juediqiusheng-data_analysis

項目主要分析絕地求生72萬場比賽的數據,並結合數據給出吃雞攻略,用數據吃雞!

主要的文件為:

  • 20G 絕地求生比賽數據集分析.ipynb:Jupyter Notebook格式,代碼和說明都在這里
  • erangel.jpg:絕地海島艾倫格地圖
  • miramar.jpg:熱情沙漠米拉瑪地圖

Weibo_Comment_Pics

這個項目主要是模擬登錄微博手機網頁端,爬取指定微博下面的評論數據,並且下載評論中的表情包圖片

主要的文件為:

photo_crawler.py:代碼(帶說明和注釋)

cookie.txt:爬取電腦端網頁時的cookie,具有時效性,需要自行更新

XSStrike

XSStrike是一個Cross Site Scripting檢測套件,配備四個手寫解析器,一個智能有效載荷生成器,是一個強大的模糊引擎和一個非常快速的爬蟲。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM