python3.5爬蟲-爬取微博某博主微博內容


想要爬取某個博主的微博數據。在網絡上尋找了很多關於爬取微博內容的教程,發現有些教程比較老舊了,已經無法再用,有些教程在我這里出現一些問題,比如爬取移動端的微博需要獲取登陸cookie,而我的谷歌瀏覽器卻無法顯示,如下圖所示。最終發現一博主分享的源碼,親測可用。博客鏈接為:https://blog.csdn.net/qq_16546829/article/details/79511997

但是在程序調試的時候發現以上博客中的源碼無法獲取轉發的微博的內容,紅色框里的內容可以獲取,綠色框里的內容得不到。如圖:

那么如何獲取綠色框中轉發微博的內容呢?只需要增加下圖紅框中的代碼,不要忘記在寫入文件時將retweeted寫進去。

調試過程中發現爬取200條左右的數據時,pycharm報錯:http error 418(不知什么原因,希望有大佬可以指點一下)嘗試的解決方案為:

在爬取完一頁之后,程序休眠一會,也就是說發送請求不要太頻繁。在大循環里添加

time.sleep(10),如圖:

雖然慢了一些,但是比較穩。爬取5000多條數據之后出現了新的報錯:http error 502: Bad Gateway,從斷掉的地方開始重新爬還是可以爬的,有懂的朋友或者大佬可以再評論里留言指導下,謝謝\( ̄︶ ̄*\))

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM