GitHub 上有哪些優秀的 Python 爬蟲項目?
大型爬蟲項目:
一個高速的爬蟲程序。最大的特點是它不是像普通爬蟲那樣只爬取結構和靜態資源,Photon被偏向設計為信息收集爬蟲,它有非常靈活的規則設置和利於閱讀的導出結果。
Photon提供的各種選項可以讓用戶按照自己的方式抓取網頁。
它最厲害的地方在於數據提取
默認情況下,Photon在抓取時會提取以下數據:
網址(范圍內和范圍外的)
帶參數的網址(http://example.com/gallery.php?id=2)
情報(電子郵件,社交媒體帳戶,亞馬遜水桶等)
文件(pdf,png,xml等)
JavaScript等文件
基於自定義正則表達式模式的字符串
提取的信息按下圖方式保存。
一個國人編寫的強大的網絡爬蟲系統並帶有強大的WebUI。采用Python語言編寫,分布式架構,支持多種數據庫后端,強大的WebUI支持腳本編輯器,任務監視器,項目管理器以及結果查看器。
它可以實現:
- python 腳本控制,可以用任何你喜歡的html解析包(內置 pyquery)
- WEB 界面編寫調試腳本,起停腳本,監控執行狀態,查看活動歷史,獲取結果產出
- 數據存儲支持MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL 及 SQLAlchemy
- 隊列服務支持RabbitMQ, Beanstalk, Redis 和 Kombu
- 支持抓取 JavaScript 的頁面
- 組件可替換,支持單機/分布式部署,支持 Docker 部署
- 強大的調度控制,支持超時重爬及優先級設置
- 支持python2&3
實用型爬蟲項目:
財務報表下載小助手。
動態示意圖:
愛奇藝等主流視頻網站的VIP視頻破解助手(暫只支持PC和手機在線觀看VIP視頻!)
感謝Python3二維碼生成器作者:https://github.com/sylnsfar/qrcode
無需Python3環境,在Windows下,解壓即用!
爬取並分析北上廣深鏈家網租房房源全部數據,得出租金分布,租房考慮因素等建議(北上廣深租房圖鑒)
主要的文件有:
- house_data_crawler.py:爬取北上廣深租房房源數據的代碼(帶說明和注釋,需要安裝mongodb)
- info.py:租房類型和各城市各區域的信息,供house_data_crawler.py調用
- 北上廣深租房圖鑒.ipynb:Jupyter notebook代碼,對北上廣深租房數據進行分析
- data_sample.csv:租房數據,這里只隨機選擇了12000條,每城市3000條
用Python搶火車票簡單代碼,有爬蟲基礎就很好操作。
本系統是一個主要使用python3, celery和requests來爬取職位數據的爬蟲,實現了定時任務,出錯重試,日志記錄,自動更改Cookies等的功能,並使用ECharts + Bootstrap 來構建前端頁面,來展示爬取到的數據。
一個可以用於下載圖片、視頻、文件的小工具,有下載進度顯示功能。稍加修改即可添加到自己的爬蟲中。
《筆趣看》盜版小說網站,爬取小說工具
本系統是一個主要使用python3, celery和requests來爬取職位數據的爬蟲,實現了定時任務,出錯重試,日志記錄,自動更改Cookies等的功能,並使用ECharts + Bootstrap 來構建前端頁面,來展示爬取到的數據。
爬蟲最大的敵人之一是什么?沒錯,驗證碼!Geetest作為提供驗證碼服務的行家,市場占有率還是蠻高的。
動態示意圖:
各種爬蟲---大眾點評,安居客,58,人人貸,拍拍貸, IT桔子,拉勾網,豆瓣,搜房網,ASO100,氣象數據,貓眼電影,鏈家,PM25.in...
以hao123為入口頁面,滾動爬取外鏈,收集網址,並記錄網址上的內鏈和外鏈數目,記錄title等信息。windows7 32位上測試,目前每24個小時,可收集數據為10萬左右
2019計算機視覺頂會CVPR全部論文PDF論文爬蟲
百度文庫word文章爬取,學生黨超實用!支持txt,word,pdf,ppt類型資源的下載
其它有趣的Python爬蟲小項目:
爬取了西瓜直播(今日頭條旗下APP)各類型游戲的主播直播數據107.5萬條,並分析直播平台和游戲主播行業是否真如我們想象般的暴利。適合Python爬蟲學習者、Python數據分析學習者、Pandas使用者、數據可視化學習者
知乎關系網爬蟲
按全國各個城市抓取飛豬“景點門票”欄的景點門票銷售數據,並且分析五一哪些景點會人擠人,哪些景點值得一去。同樣適合Python爬蟲學習者、Python數據分析學習者、Pandas使用者、數據可視化學習者學習。
隨機抓取吳亦凡發表《大碗寬面》微博的微博轉發數據10萬條,並分析該條微博的真假轉發比例,以及大家對於這首歌的情感傾向如何
爬取了外籍人員招聘網站JobLEADChina上的外籍英語老師招聘數據945條,萬行教師人才網上的英語老師招聘數據5780條,以及微信群成員信息498條,分析外教教師的招聘狀況。洋外教的工資學歷情況一目了然。
一個微信公眾號文章采集器,用於采集微信公眾號文章並保存至word文檔。
項目很簡單,主要包括以下文件:
- article_collector.py:主文件,用於爬取公眾號文章以及把文章儲存為word文檔;
- add_hyperlinks.py:用於在word文檔中添加超鏈接
- gzh.txt:待爬取的公眾號列表
- 比心.JPG:用來撒狗糧的,不用管
一小時入門Python3網絡爬蟲。
內容有包括:
網絡小說下載(靜態網站)-biqukan
優美壁紙下載(動態網站)-unsplash
愛奇藝VIP視頻下載
PUBG-juediqiusheng-data_analysis
項目主要分析絕地求生72萬場比賽的數據,並結合數據給出吃雞攻略,用數據吃雞!
主要的文件為:
- 20G 絕地求生比賽數據集分析.ipynb:Jupyter Notebook格式,代碼和說明都在這里
- erangel.jpg:絕地海島艾倫格地圖
- miramar.jpg:熱情沙漠米拉瑪地圖
這個項目主要是模擬登錄微博手機網頁端,爬取指定微博下面的評論數據,並且下載評論中的表情包圖片
主要的文件為:
photo_crawler.py:代碼(帶說明和注釋)
cookie.txt:爬取電腦端網頁時的cookie,具有時效性,需要自行更新
XSStrike是一個Cross Site Scripting檢測套件,配備四個手寫解析器,一個智能有效載荷生成器,是一個強大的模糊引擎和一個非常快速的爬蟲。