新浪微博python爬蟲分享（一天可抓取 1300 萬條數據）,超級無敵

本文轉載自查看原文 2020-05-03 21:08 2411 Python

直接進入主題

爬蟲功能：
此項目和QQ空間爬蟲類似，主要爬取新浪微博用戶的個人信息、微博信息、粉絲和關注（詳細見此）。還要注意：不管你是為了Python就業還是興趣愛好，記住：項目開發經驗永遠是核心，如果你沒有2020最新python入門到高級實戰視頻教程，可以去小編的Python交流.裙：七衣衣九七七巴而五（數字的諧音）轉換下可以找到了，里面很多新python教程項目，還可以跟老司機交流討教！
代碼獲取新浪微博Cookie進行登錄，可通過多賬號登錄來防止新浪的反扒（用來登錄的賬號可從淘寶購買，一塊錢七個）。
項目爬的是新浪微博wap站，結構簡單，速度應該會比較快，而且反扒沒那么強，缺點是信息量會稍微缺少一些（可見爬蟲福利：如何爬wap站）。
爬蟲抓取微博的速度可以達到 1300萬/天以上，具體要視網絡情況，我使用的是校園網（廣工大學城校區），普通的家庭網絡可能才一半的速度，甚至都不到。

環境、架構：
開發語言：Python2.7
開發環境：64位Windows8系統，4G內存，i7-3612QM處理器。
數據庫：MongoDB 3.2.0
（Python編輯器：Pycharm 5.0.4；MongoDB管理工具：MongoBooster 1.1.1）

主要使用 scrapy 爬蟲框架。
下載中間件會從Cookie池和User-Agent池中隨機抽取一個加入到spider中。
start_requests 中根據用戶ID啟動四個Request，同時對個人信息、微博、關注和粉絲進行爬取。
將新爬下來的關注和粉絲ID加入到待爬隊列（先去重）。

使用說明：
啟動前配置：

MongoDB安裝好能啟動即可，不需要配置。
Python需要安裝好scrapy（64位的Python盡量使用64位的依賴模塊）
另外用到的python模塊還有：pymongo、json、base64、requests。
將你用來登錄的微博賬號和密碼加入到 cookies.py 文件中，里面已經有兩個賬號作為格式參考了。
另外一些scrapy的設置（如間隔時間、日志級別、Request線程數等）可自行在setting里面調。

運行截圖：

數據庫說明：
SinaSpider主要爬取新浪微博的個人信息、微博數據、關注和粉絲。
數據庫設置 Information、Tweets、Follows、Fans四張表，此處僅介紹前面兩張表的字段。

Information 表：
_id：采用 “用戶ID” 作為唯一標識。
Birthday：出生日期。
City：所在城市。
Gender：性別。
Marriage：婚姻狀況。
NickName：微博昵稱。
Num_Fans：粉絲數量。
Num_Follows：關注數量。
Num_Tweets：已發微博數量。
Province：所在省份。
Signature：個性簽名。
URL：微博的個人首頁。

Tweets 表：
_id：采用 “用戶ID-微博ID” 的形式作為一條微博的唯一標識。
Co_oridinates：發微博時的定位坐標（經緯度），調用地圖API可直接查看具體方位，可識別到在哪一棟樓。
Comment：微博被評論的數量。
Content：微博的內容。
ID：用戶ID。
Like：微博被點贊的數量。
PubTime：微博發表時間。
Tools：發微博的工具（手機類型或者平台）
Transfer：微博被轉發的數量。
————————————————

最后要注意：不管你是為了Python就業還是興趣愛好，記住：項目開發經驗永遠是核心，如果你沒有2020最新python入門到高級實戰視頻教程，可以去小編的Python交流.裙：七衣衣九七七巴而五（數字的諧音）轉換下可以找到了，里面很多新python教程項目，還可以跟老司機交流討教！
本文的文字及圖片來源於網絡加上自己的想法,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯系我們以作處理。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。