零授權 抓取新浪微博任何用戶的微博內容


一、微博API

  使用微博API獲取數據是最簡單方便,同時數據完整性高的方式,缺點是微博開發平台對於API的調用次數做了嚴格的限制。具體使用過程參考http://open.weibo.com/,有詳細的教程,對於API次數的限制,我們是通過注冊多個開發者賬號來繞過,對於某個IP調用API次數的限制,暫時沒辦法解決。微博API是通過httpclient發起請求,返回json形式的數據。對於數據重復獲取方面,也有專門的接口通過參數控制獲取增量數據。優點:簡單,數據完整性高,增量簡單。缺點:API次數有嚴格限制,數據量小。

二、抓取API數據

  可以通過Jsoup來模擬瀏覽器的HTTP請求,Jsoup繞過微博登陸的方法就是設置cookie,對於獲取回來的HTML頁面,Jsoup也可以方便的進行解析,但是微博的數據比較特殊,頁面是異步加載的,通過JS函數插入到指定div內,所以是通過自己寫正則或者自己想辦法解析,但是由於數據是異步加載,可能有時候會失敗。但是頁面內微博數據的獲取是正確,完整度高的。優點:可並發,無次數限制,數據完整性高。缺點:有失敗可能。

  通過weibo.com/login.php 獲取數據需要設置cookie,且數據是異步加載,有失敗的可能,對於weibo.cn的數據是同步加載的,但是由於頁面元素簡單,所以數據完整度低,對於增量數據獲取以及數據判斷去重復方面,不容易進行。對於weibo.cn可以通過在URL請求中加入gsid參數,繞過登陸檢驗,比設置cookie簡單些。優點:可並發,數據獲取沒有失敗可能。

參考博客:http://fair-jm.iteye.com/blog/2046031

參考博客:https://segmentfault.com/a/1190000000498692

 

二、通過微博跳轉淘寶的免登方案大致流程圖:

分享到微博的大致流程圖:

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM