python爬蟲實戰（六）--------新浪微博（爬取微博帳號所發內容，不爬取歷史內容）

本文轉載自查看原文 2017-04-13 13:43 3920 python實戰/ python爬蟲

相關代碼已經修改調試成功----2017-4-13
詳情代碼請移步我的github：https://github.com/pujinxiao/sina_spider

一、說明

2.實現：跟蹤比較活躍的微博號所發的微博內容，隔3-5分鍾刷新（爬取）一次，只有更新了才爬的到，不爬取歷史微博內容哦，爬取正文、文中圖片、所屬微博昵稱、發布時間（時間戳格式)。

3.數據：數據都存在mysql數據庫中。

4.補充：

1.表cookies_list是存放你登錄微博的cookies，我這里選擇cookie登錄。在遇到cookie被禁止就換cookie，微博帳號可以在某寶買到，你懂得。

2.表headers_list是存放User-Agent，隨機調用瀏覽器的頭。

3.表weibo-id-list是存放你要跟蹤的微博帳號的url，如：新浪電影微博

4.表weibo_logging是記錄所有爬取的信息，不管有沒有用，可以當做日志來看，其實在爬取的過程中有很多無效的信息，都需要過濾的。

5.表weibo_result是最終的有效結果。

二、運行

首先配置好數據庫，mysql。除了表weibo_result不用創建以外，其他都要額外創建好。例如：我存放在百度網盤里面，可自行看相關字段-------鏈接：http://pan.baidu.com/s/1nuSx8vB 密碼：krqp

備注處更改表明可以隨便更改名稱。很多說明程序也都有，點擊運行即可。

三、問題----歡迎留言提出問題

聲明：本項目原先是想監控某些微博帳號所發內容，但是本人能力有限，所寫並不是很好，就當是練手了。在這里推薦一個開源的關於新浪微博的爬蟲的項目，我也是寫完才發現這個的，但是實現的功能和我不一樣，里面東西比較多，也比較復雜，可以學習學習。

1.這次就不寫問題了，當練手了。有學習python爬蟲的歡迎一起學習，我的博客：https://www.cnblogs.com/jinxiao-pu/歡迎參觀。

歡迎有興趣的小伙伴幫我優化，解決以上問題，之后我將合並你的代碼，作為貢獻者,共同成長。

四、附加

我在另外的python_service.py文件中，我把次程序寫進了windows服務里面，只要電腦一開機，設置一下就會自動啟動爬取。具體的都在參考資料里面。

參考資料：

http://blog.csdn.net/zhou191954/article/details/8290010

http://www.tuicool.com/articles/Qjei2e

詳情代碼請移步我的github：https://github.com/pujinxiao/sina_spider

如果本項目對你有用請給我一顆star，萬分感謝。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 微博內容爬取 python3.5爬蟲-爬取微博某博主微博內容 Python爬取新浪微博評論用python寫網絡爬蟲-爬取新浪微博評論 python3爬蟲 -----新浪微博(m)-------評論爬取 Scrapy 爬取新浪微博【Python項目】爬取新浪微博簽到頁運用Python爬取新浪微博用戶的信息 python3使用requests爬取新浪熱門微博【python網絡編程】新浪爬蟲：關鍵詞搜索爬取微博數據