【Python項目】爬取新浪微博個人用戶信息頁


微博用戶信息爬蟲

項目鏈接:https://github.com/RealIvyWong/WeiboCrawler/tree/master/WeiboUserInfoCrawler

1 實現功能

這個項目是用來根據用戶id爬取微博用戶信息的數據,並寫入sqlite數據庫。

而這個用戶id是在微博簽到頁爬蟲這個爬蟲項目生成的weibo.sqlite數據庫中讀取的。所以想要爬自己有的一串用戶id的數據的朋友,可能還需要在這個小爬蟲上面再改改。

以及這個爬蟲是需要自己微博登錄的cookie的。

2 依賴環境

使用的是Python 3.7(在雲上用過3.5也完全ok)。

需要額外的第三方庫有yagmail(用來發送郵件),pandas,bs4, numpy。均可使用pip來安裝。

pip install yagmail pandas bs4 numpy

3 使用方法

step1. 修改cookie.txt中的cookie改為自己微博登錄的cookie。(如何獲取還請額外百度,非常多教程!)

step2. 修改代碼中的郵箱賬號密碼以及數據庫路徑。

step3. Run!

4 文件說明

包含兩個文件。

cookie.txt

就是用來存放cookie的。

WeiboUserInfo.py

爬蟲本體。

5 爬取示例

如果開始成功運行之后,控制台輸出大概是這樣的。

1545039042299

得到的user.sqlite結構就只有user一個表。

1545039128211

6 Contact Me

如果有什么Bug,或者改進建議。

請聯系我!(924154233@qq.com)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM