python爬蟲實戰(六)--------新浪微博(爬取微博帳號所發內容,不爬取歷史內容)


相關代碼已經修改調試成功----2017-4-13
詳情代碼請移步我的github:https://github.com/pujinxiao/sina_spider

一、說明

1.目標網址:新浪微博

2.實現:跟蹤比較活躍的微博號所發的微博內容,隔3-5分鍾刷新(爬取)一次,只有更新了才爬的到,不爬取歷史微博內容哦,爬取正文、文中圖片、所屬微博昵稱、發布時間(時間戳格式)

3.數據:數據都存在mysql數據庫中。

4.補充

1.表cookies_list是存放你登錄微博的cookies,我這里選擇cookie登錄。在遇到cookie被禁止就換cookie,微博帳號可以在某寶買到,你懂得。

2.表headers_list是存放User-Agent,隨機調用瀏覽器的頭。

3.表weibo-id-list是存放你要跟蹤的微博帳號的url,如:新浪電影微博

4.表weibo_logging是記錄所有爬取的信息,不管有沒有用,可以當做日志來看,其實在爬取的過程中有很多無效的信息,都需要過濾的。

5.表weibo_result是最終的有效結果。

二、運行

  1. 首先配置好數據庫,mysql。除了表weibo_result不用創建以外,其他都要額外創建好。例如:我存放在百度網盤里面,可自行看相關字段-------鏈接:http://pan.baidu.com/s/1nuSx8vB 密碼:krqp
  2. 備注處更改表明可以隨便更改名稱。很多說明程序也都有,點擊運行即可。

三、問題----歡迎留言提出問題

聲明:本項目原先是想監控某些微博帳號所發內容,但是本人能力有限,所寫並不是很好,就當是練手了。在這里推薦一個開源的關於新浪微博的爬蟲的項目,我也是寫完才發現這個的,但是實現的功能和我不一樣,里面東西比較多,也比較復雜,可以學習學習。

1.這次就不寫問題了,當練手了。有學習python爬蟲的歡迎一起學習,我的博客:https://www.cnblogs.com/jinxiao-pu/歡迎參觀。

歡迎有興趣的小伙伴幫我優化,解決以上問題,之后我將合並你的代碼,作為貢獻者,共同成長。

四、附加

我在另外的python_service.py文件中,我把次程序寫進了windows服務里面,只要電腦一開機,設置一下就會自動啟動爬取。具體的都在參考資料里面。

參考資料:

http://blog.csdn.net/zhou191954/article/details/8290010

http://www.tuicool.com/articles/Qjei2e

詳情代碼請移步我的github:https://github.com/pujinxiao/sina_spider


如果本項目對你有用請給我一顆star,萬分感謝。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM