畢業設計題目就是用Scrapy抓取QQ空間的數據,最近畢業設計弄完了,來總結以下:
首先是模擬登錄的問題:
由於Tencent對模擬登錄比較討厭,各個防備,而本人能力有限,所以做的最簡單的,手動登錄后,獲得Cookie信息,然后攜帶訪問。
其次是數據接口:
通過對QQ空間的網頁分析,數據主要是通過Json的形式返回。選擇了兩個數據接口進行數據抓取
每個QQ的詳細信息接口: "http://user.qzone.qq.com/p/base.s8/cgi-bin/user/cgi_userinfo_get_all?uin="+str(self.currentQQ)+"&vuin=QQ&fupdate=1&rd=0.007898919197098397&g_tk="+GTK
每個QQ的說說信息接口:"http://taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin="+str(self.currentQQ)+"&ftype=0&sort=0&pos=0&num=40&replynum=100&g_tk="+str(self.getOldGTK(self.skey))+"&callback=_preloadCallback&code_version=1&format=json&need_private_comment=1"