基於微博簽到頁的微博爬蟲

1 實現功能

這個項目是用來爬取微博簽到頁的微博數據（每三個小時爬一次），並寫進sqlite數據庫。

關於微博簽到頁打個比方，就是類似這個https://weibo.com/p/100101B2094757D069A7FE449F

1543409340810

順便一說，這個頁面是不用微博登錄就可以訪問的。所以方便很多啊（不用模擬登錄）。

使用的是Python 3.7（在雲上用過3.5也完全ok）。

需要額外的第三方庫有yagmail（用來發送郵件）,pandas，bs4。均可使用pip來安裝。

pip install yagmail pandas bs4

step1. 修改pid.csv中的地點名詞與對應的id。

step2. 修改start.py中的郵箱賬號密碼。

step3. Run start.py。

包含四個文件。

是放置地點的名稱和微博頁面對應的位置id。比如說上面的珞珈山，就是網頁URL最后的那一串數字100101B2094757D069A7FE449F。

是在網上看到別人寫的……具體忘了哪的，如果本尊看到！sorry！請聯系我注明！

我稍微修改了下。這個文件是一個實現爬取代理網站上的代理IP來構建代理池的模塊。

爬蟲本體。

控制爬取多個地點的一個啟動文件。

如果開始成功運行之后，控制台輸出大概是這樣的。先獲取代理ip（這可能需要10分鍾左右？）。

1545037686110

然后獲取完代理就一個一個地點開始爬，像這樣。

1545037751972

這個頁數是由那個簽到點的微博數定的，如果很冷門，可能就十幾頁甚至幾頁。當然，最多新浪只會讓我們爬150頁，所以不是這個簽到點的所有數據都能爬到。

得到的weibo.sqlite結構是包含三個表，weibo表（用來存儲微博具體的信息）、pic表（用來存儲微博圖片的url，因為一條微博可能有多張圖）和picweibo表（建立pic的id和weibo的id的聯系的表）。

1545038005026

1545038022806

1545038040195

如果有什么Bug，或者改進建議。

請聯系我！(924154233@qq.com)

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 新浪微博搜索頁用戶信息爬取運用Python爬取新浪微博用戶的信息 Python爬蟲開源項目代碼，爬取微信、淘寶、豆瓣、知乎、新浪微博、QQ、去哪網等代碼整理【python網絡編程】新浪爬蟲：關鍵詞搜索爬取微博數據 Python爬取新浪微博評論數據，寫入csv文件中 Scrapy爬取新浪微博移動版用戶首頁第一條微博 python爬取微博熱搜 Python-爬取微博信息利用python爬取微博熱搜 Python網絡爬蟲-爬取微博熱搜