通過Scrapy抓取QQ空間


畢業設計題目就是用Scrapy抓取QQ空間的數據,最近畢業設計弄完了,來總結以下:

首先是模擬登錄的問題:

由於Tencent對模擬登錄比較討厭,各個防備,而本人能力有限,所以做的最簡單的,手動登錄后,獲得Cookie信息,然后攜帶訪問。

其次是數據接口:

通過對QQ空間的網頁分析,數據主要是通過Json的形式返回。選擇了兩個數據接口進行數據抓取

每個QQ的詳細信息接口: "http://user.qzone.qq.com/p/base.s8/cgi-bin/user/cgi_userinfo_get_all?uin="+str(self.currentQQ)+"&vuin=QQ&fupdate=1&rd=0.007898919197098397&g_tk="+GTK

每個QQ的說說信息接口:"http://taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin="+str(self.currentQQ)+"&ftype=0&sort=0&pos=0&num=40&replynum=100&g_tk="+str(self.getOldGTK(self.skey))+"&callback=_preloadCallback&code_version=1&format=json&need_private_comment=1"

最后使用Scrapy完成網絡請求,並將數據存入數據庫

最終進行了簡單的統計:

figure_1figure_2figure_3figure_4


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM