微博用戶信息爬蟲
項目鏈接:https://github.com/RealIvyWong/WeiboCrawler/tree/master/WeiboUserInfoCrawler
1 實現功能
這個項目是用來根據用戶id爬取微博用戶信息的數據,並寫入sqlite數據庫。
而這個用戶id是在微博簽到頁爬蟲這個爬蟲項目生成的weibo.sqlite數據庫中讀取的。所以想要爬自己有的一串用戶id的數據的朋友,可能還需要在這個小爬蟲上面再改改。
以及這個爬蟲是需要自己微博登錄的cookie的。
2 依賴環境
使用的是Python 3.7(在雲上用過3.5也完全ok)。
需要額外的第三方庫有yagmail(用來發送郵件),pandas,bs4, numpy。均可使用pip來安裝。
pip install yagmail pandas bs4 numpy
3 使用方法
step1. 修改cookie.txt中的cookie改為自己微博登錄的cookie。(如何獲取還請額外百度,非常多教程!)
step2. 修改代碼中的郵箱賬號密碼以及數據庫路徑。
step3. Run!
4 文件說明
包含兩個文件。
cookie.txt
就是用來存放cookie的。
WeiboUserInfo.py
爬蟲本體。
5 爬取示例
如果開始成功運行之后,控制台輸出大概是這樣的。

得到的user.sqlite結構就只有user一個表。

6 Contact Me
如果有什么Bug,或者改進建議。
請聯系我!(924154233@qq.com)
