我從騰訊那“偷了”3000萬QQ用戶數據,出了份很有趣的獨家報告!


聲明:

1、目前程序已停止運行!QQ空間也已升級訪問安全機制。

2、本“分析”數據源自部分用戶的公開信息,並未觸及隱私內容,廣大網友無需擔心。

3、QQ空間會不定期發布大數據分析報告,感興趣的朋友關注騰訊大數據官方公眾號。

 

    感謝博客園! 轉載請注明博客園地址,及作者hi@wuxinsheng.com。

    各大媒體熱傳:

    

 

    這是我近期使用C#寫的一個QQ空間蜘蛛網爬蟲程序。程序截止2015年10月運行2月,總共爬了1.5億騰訊QQ用戶數據,其中有4000萬包含用戶(QQ號,昵稱,空間名稱,頭像,最新一條說說內容,最新說說的發表時間,空間簡介,性別,生日,所在省份,城市)的詳細數據。

 

      目前已經爬到我的第7圈好友(depth=7)共3000萬數據。

 爬蟲主程序運行界面:

 

爬蟲程序設計:

大致設計思路是模仿工廠的生產車間,使用三大獨立循環線程組(GetWaitList,CrawlerQQInfos,SaveData)。

詳細設計圖:

 

再看看,我根據這份數據生成的一些有趣的統計圖吧!

內存已經爆了,不能怪我。  誰贊助台服務器吧

 

1、大家一般都在啥時候發說說呢?   

 從圖中看出一天最冷門的時候是凌晨4點,這時全國正在睡覺的人最多。 大家最亢奮的是晚上10點到11點,人們都喜歡睡前看看別人的空間,發條說說。中午12點左右也有一波小高峰。

 

2、中國人都喜歡在幾月生小孩呢?

    

 從圖中可看出1月和10月出生的人最多,4月的最少。總體來說上半年的出生率比下半年的低。分析可得,1月多是因為很多人填的是默認的1月1號。4月少,是因為中國人不喜歡4這個數字。10月出生率最高,是因為那時天氣不冷不熱,秋收后也不是太忙了的原因。

 

3、這是我目前爬取的數據人群地區分布   

 

4、數據人群的年齡分布

      如上兩張圖,整好和我的信息相吻合。我是湖南人,在江蘇讀的書,而湖南大部分人都在廣東打工。所以地區分布中,這三個省整好排在前四名當中。而我又是1990年出生的,對應年齡分布圖1990年的用戶最多。從目前的數據來看,無論是分布地區以及年齡階段與我的關聯還非常大,隨着數據量的不斷增加這種關聯會逐漸變小,統計圖也會逐漸接近全國用戶的真實情況。

 

5、數據人群性別分布

      男比女足足多了23%的人數,我分析認為實際差距應該是不大的,但女生在設置QQ空間訪問權限時普遍要比男生的高。所以我爬取的數據中男生居多。

 

 

6、下面系列圖是根據一些“關鍵字”在說說中出現的頻率統計出來的,相當有意思。

       單個用戶的行為是很難看出規律的,大數據的意義在於它會不斷矯正那個平衡點,從而得出反應宏觀現象最真實的情況。數據量越大,平衡點動盪的幅度便越小。進而能夠根據當前的數據趨勢預測后續的發展,為決策提供有力依據!

6.1 圖說股市      

下圖是我通過股民所發說說中包含漲、紅、開心表情等數據計算出的股民樂觀指數,從圖可看出樂觀指數和上證指數是呈正相關的。所以股民行為數據在股市預測這塊也相當值得研究。

       現在我們擁有海量的互聯網社交數據,如QQ的說說,sina的微博數據。我覺得這些數據擁有驚人的利用價值,這非常值得我們去研究,去挖掘。我想,用它們來做一些股市或者其它方面的分析預測是可行的,准確度應該也是非常高的。

    將股票中的關鍵字做海量數據分析,比如會得出當日討論股票熱度排行榜。進而能得到海量討論股票的用戶,再通過市場的實際反饋找出股票上漲及下跌的正相關因子,再對這些海量數據進行分析計算得出最靠譜股票推薦大神排行榜。對這些用戶分級,分優先度及抓取密度來拿數據。用這些數據分析出哪些是靠譜的股票肯定靠譜!

 

 

6.2 群眾討論最多的明星排行榜,還是很靠譜的。(我愛汪峰哥,我也愛Jay! ---信仰在空中飄揚)

插播汪峰頭條:素不相識,光聽新聞的片面之詞就斷下結論,那是完整的真相嗎?背后的故事又有誰了解多少?實在反感那些破口大罵的,更是可惡一些媒體就事三番五次的戲謔。

祝峰哥幸福,我很喜歡你的歌!

 

 

6.3 最為用戶喜愛的手機品牌

 

6.4 人們最喜歡談論的互聯網公司,阿里之所以這么低估計是大家都喜歡叫它淘寶或者天貓吧。

 

6.5 QQ空間中討論的最為頻繁的社交平台排行榜。

 

6.6 生活的統計圖

愛>恨; 開心>傷心; 笑聲>嘆氣聲; 吃貨很多;  誰特么說中國不幸福了,這滿滿的都是正能量數據啊。

好了,其實還可以做很多其它的分析。如果大家有什么有趣的數據分析想知道的,那就給我留言吧。

 

       技術不多說了,程序不難,多線程數據庫操作卻是把我搞苦了。還好,現在程序差不多穩定了。過程也是很有意思的,有空我再寫個程序升級過程中的那些趣事吧。我覺得一個美妙的程序一定是高度模擬現實的,就像飛機模仿蜻蜓,雷達模仿蝙蝠一樣。 這次的程序設計就是模擬的工廠的生產線。 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM