GitHub 上有哪些優秀的 Python 爬蟲項目？

本文轉載自查看原文 2019-10-25 11:36 1519 python 爬蟲

GitHub 上有哪些優秀的 Python 爬蟲項目？

GitHub 上有哪些優秀的 Python 爬蟲項目？

大型爬蟲項目：

Photon

一個高速的爬蟲程序。最大的特點是它不是像普通爬蟲那樣只爬取結構和靜態資源，Photon被偏向設計為信息收集爬蟲，它有非常靈活的規則設置和利於閱讀的導出結果。

Photon提供的各種選項可以讓用戶按照自己的方式抓取網頁。

它最厲害的地方在於數據提取

默認情況下，Photon在抓取時會提取以下數據：

網址（范圍內和范圍外的）

帶參數的網址（http://example.com/gallery.php?id=2）

情報（電子郵件，社交媒體帳戶，亞馬遜水桶等）

文件（pdf，png，xml等）

JavaScript等文件

基於自定義正則表達式模式的字符串

提取的信息按下圖方式保存。

PySpide

一個國人編寫的強大的網絡爬蟲系統並帶有強大的WebUI。采用Python語言編寫，分布式架構，支持多種數據庫后端，強大的WebUI支持腳本編輯器，任務監視器，項目管理器以及結果查看器。

它可以實現：

python 腳本控制，可以用任何你喜歡的html解析包（內置 pyquery）
WEB 界面編寫調試腳本，起停腳本，監控執行狀態，查看活動歷史，獲取結果產出
數據存儲支持MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL 及 SQLAlchemy
隊列服務支持RabbitMQ, Beanstalk, Redis 和 Kombu
支持抓取 JavaScript 的頁面
組件可替換，支持單機/分布式部署，支持 Docker 部署
強大的調度控制，支持超時重爬及優先級設置
支持python2&3

實用型爬蟲項目：

financical.py

財務報表下載小助手。

動態示意圖：

video_downloader

愛奇藝等主流視頻網站的VIP視頻破解助手(暫只支持PC和手機在線觀看VIP視頻！)

感謝Python3二維碼生成器作者：https://github.com/sylnsfar/qrcode

無需Python3環境，在Windows下，解壓即用！

BSGS_Rent

爬取並分析北上廣深鏈家網租房房源全部數據，得出租金分布，租房考慮因素等建議（北上廣深租房圖鑒）

主要的文件有：

house_data_crawler.py：爬取北上廣深租房房源數據的代碼（帶說明和注釋，需要安裝mongodb）
info.py：租房類型和各城市各區域的信息，供house_data_crawler.py調用
北上廣深租房圖鑒.ipynb：Jupyter notebook代碼，對北上廣深租房數據進行分析
data_sample.csv：租房數據，這里只隨機選擇了12000條，每城市3000條

12306

用Python搶火車票簡單代碼，有爬蟲基礎就很好操作。

webspider

本系統是一個主要使用python3, celery和requests來爬取職位數據的爬蟲，實現了定時任務，出錯重試，日志記錄，自動更改Cookies等的功能，並使用ECharts + Bootstrap 來構建前端頁面，來展示爬取到的數據。

downloader.py

一個可以用於下載圖片、視頻、文件的小工具，有下載進度顯示功能。稍加修改即可添加到自己的爬蟲中。

biqukan.py

《筆趣看》盜版小說網站，爬取小說工具

webspider

本系統是一個主要使用python3, celery和requests來爬取職位數據的爬蟲，實現了定時任務，出錯重試，日志記錄，自動更改Cookies等的功能，並使用ECharts + Bootstrap 來構建前端頁面，來展示爬取到的數據。

geetest

爬蟲最大的敵人之一是什么？沒錯，驗證碼！Geetest作為提供驗證碼服務的行家，市場占有率還是蠻高的。

動態示意圖：

Nyspider

各種爬蟲---大眾點評,安居客，58，人人貸，拍拍貸, IT桔子,拉勾網，豆瓣,搜房網,ASO100,氣象數據,貓眼電影,鏈家,PM25.in...

spider

以hao123為入口頁面，滾動爬取外鏈，收集網址，並記錄網址上的內鏈和外鏈數目，記錄title等信息。windows7 32位上測試，目前每24個小時，可收集數據為10萬左右

CVPR2019

2019計算機視覺頂會CVPR全部論文PDF論文爬蟲

bdwenku-spider

百度文庫word文章爬取，學生黨超實用！支持txt，word，pdf，ppt類型資源的下載

其它有趣的Python爬蟲小項目：

LiveStream

爬取了西瓜直播（今日頭條旗下APP）各類型游戲的主播直播數據107.5萬條，並分析直播平台和游戲主播行業是否真如我們想象般的暴利。適合Python爬蟲學習者、Python數據分析學習者、Pandas使用者、數據可視化學習者

Zhihu -Spider

知乎關系網爬蟲

LaborDay

按全國各個城市抓取飛豬“景點門票”欄的景點門票銷售數據，並且分析五一哪些景點會人擠人，哪些景點值得一去。同樣適合Python爬蟲學習者、Python數據分析學習者、Pandas使用者、數據可視化學習者學習。

KrisWu

隨機抓取吳亦凡發表《大碗寬面》微博的微博轉發數據10萬條，並分析該條微博的真假轉發比例，以及大家對於這首歌的情感傾向如何

ESL

爬取了外籍人員招聘網站JobLEADChina上的外籍英語老師招聘數據945條，萬行教師人才網上的英語老師招聘數據5780條，以及微信群成員信息498條，分析外教教師的招聘狀況。洋外教的工資學歷情況一目了然。

Wechat_article_collector

一個微信公眾號文章采集器，用於采集微信公眾號文章並保存至word文檔。

項目很簡單，主要包括以下文件：

article_collector.py：主文件，用於爬取公眾號文章以及把文章儲存為word文檔；
add_hyperlinks.py：用於在word文檔中添加超鏈接
gzh.txt：待爬取的公眾號列表
比心.JPG：用來撒狗糧的，不用管

one_hour_spider

一小時入門Python3網絡爬蟲。

內容有包括：

網絡小說下載(靜態網站)-biqukan

優美壁紙下載(動態網站)-unsplash

愛奇藝VIP視頻下載

PUBG-juediqiusheng-data_analysis

項目主要分析絕地求生72萬場比賽的數據，並結合數據給出吃雞攻略，用數據吃雞！

主要的文件為：

20G 絕地求生比賽數據集分析.ipynb：Jupyter Notebook格式，代碼和說明都在這里
erangel.jpg：絕地海島艾倫格地圖
miramar.jpg：熱情沙漠米拉瑪地圖

Weibo_Comment_Pics

這個項目主要是模擬登錄微博手機網頁端，爬取指定微博下面的評論數據，並且下載評論中的表情包圖片

主要的文件為：

photo_crawler.py：代碼（帶說明和注釋）

cookie.txt：爬取電腦端網頁時的cookie，具有時效性，需要自行更新

XSStrike

XSStrike是一個Cross Site Scripting檢測套件，配備四個手寫解析器，一個智能有效載荷生成器，是一個強大的模糊引擎和一個非常快速的爬蟲。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Github 上有沒有優秀的Java 項目推薦？ python爬蟲---->github上python的項目 github優秀開源項目優秀的github java項目優秀的 Java 爬蟲項目？ Python爬蟲模擬登錄的github項目 Github 上優秀的 Java 項目推薦 Android優秀github項目整理 GitHub 優秀的 Android 開源項目 GitHub上優秀的Go開源項目