相關代碼已經修改調試成功----2017-4-13
詳情代碼請移步我的github:https://github.com/pujinxiao/sina_spider
一、說明
1.目標網址:新浪微博
2.實現:跟蹤比較活躍的微博號所發的微博內容,隔3-5分鍾刷新(爬取)一次,只有更新了才爬的到,不爬取歷史微博內容哦,爬取正文、文中圖片、所屬微博昵稱、發布時間(時間戳格式)。
3.數據:數據都存在mysql數據庫中。
4.補充:

1.表cookies_list是存放你登錄微博的cookies,我這里選擇cookie登錄。在遇到cookie被禁止就換cookie,微博帳號可以在某寶買到,你懂得。
2.表headers_list是存放User-Agent,隨機調用瀏覽器的頭。
3.表weibo-id-list是存放你要跟蹤的微博帳號的url,如:新浪電影微博
4.表weibo_logging是記錄所有爬取的信息,不管有沒有用,可以當做日志來看,其實在爬取的過程中有很多無效的信息,都需要過濾的。
5.表weibo_result是最終的有效結果。
二、運行
- 首先配置好數據庫,mysql。除了表weibo_result不用創建以外,其他都要額外創建好。例如:我存放在百度網盤里面,可自行看相關字段-------鏈接:http://pan.baidu.com/s/1nuSx8vB 密碼:krqp
- 備注處更改表明可以隨便更改名稱。很多說明程序也都有,點擊運行即可。
三、問題----歡迎留言提出問題
聲明:本項目原先是想監控某些微博帳號所發內容,但是本人能力有限,所寫並不是很好,就當是練手了。在這里推薦一個開源的關於新浪微博的爬蟲的項目,我也是寫完才發現這個的,但是實現的功能和我不一樣,里面東西比較多,也比較復雜,可以學習學習。
1.這次就不寫問題了,當練手了。有學習python爬蟲的歡迎一起學習,我的博客:https://www.cnblogs.com/jinxiao-pu/歡迎參觀。
歡迎有興趣的小伙伴幫我優化,解決以上問題,之后我將合並你的代碼,作為貢獻者,共同成長。
四、附加
我在另外的python_service.py文件中,我把次程序寫進了windows服務里面,只要電腦一開機,設置一下就會自動啟動爬取。具體的都在參考資料里面。
參考資料:
http://blog.csdn.net/zhou191954/article/details/8290010
http://www.tuicool.com/articles/Qjei2e
詳情代碼請移步我的github:https://github.com/pujinxiao/sina_spider
如果本項目對你有用請給我一顆star,萬分感謝。
