有點閑時間就想跟”博客園過意不去“,每天逛博客園趕腳閃存挺好,就是"常駐人口"眾多,其他偶爾來一次,大家交流也是挺方便的,於是乎我就想看看閃存"常駐人口"有哪些?根據他們發閃的頻率來判斷他們的狀態。呵呵,所以就想到了抓取數據分析,本來想弄個c#版,但是c#不是我的強項,時間關系我就搞了一個java多線程抓取+highcharts報表生成,其實也就是對我的知識鞏固一下、當中確實又領悟了不少的編程思想、下面我先匯報一下我的統計報告,然后再做技術方面的分享,兩個方面。廢話不多說我們通過數據說話,數據完全真實可靠(由於博客園閃存最多翻頁到167頁,所以數據時間段是從2013-8-1日到2013-8-22日差不多剛好一個月的樣子)。
一:統計結果分析:
1.1閃存總人數:
1.2發布消息最多的排行——top20
看看那些人都在明星榜單?呵呵呵,哈哈,我也在,dudu,也在江湖再見你發的有點多了哦。top1(8-1到8-22本來想弄個ps的通緝令想想算了。分享知識重要)
1.3回復數量最多的一條閃(沒有抓內容,所以不知道這個家伙說神馬了)
看到這個我有點不相信我的眼睛,是不是看錯了,我的乖乖,回復65,這個是扣扣聊天?於是乎我想知道他是誰?這么大的魅力,看下面就是他、
這個要是微博這家伙絕對火了、哈哈哈,緋聞一大堆了、
1.4回復數量排行榜top20
看看誰都在名人榜上,呵呵呵呵、人氣很高啊、閃存明星,歐碼噶的,都有我、
1.5刷星能手top20排行榜
下面來讓我們看看閃存的刷星能收排行榜,看看誰在22天的時間里刷到的星星最多,不廢話,看圖、
哈哈,看看誰都在,歐碼噶的,第一果不其然是枕頭妹子啊,你牛逼了、我當時統計的時候我也心里想應該是她,厲害啊!昨天晚上有人(二十三號同學)問我,問我那人也說是枕頭、
好了,到這里我們粗略的統計了一下,下面我們通過報表的形式展現、也是我今天新鮮出爐的highcharts(前端報表庫)下面看圖。
2.1刷到星星和沒有刷到星星占總人數比重(餅圖)
2.2消息得到回復和沒有得到回復的占總人數的比重(餅圖)
2.3新人老人占總人數比重
2.4每天的發消息量(8-1日到8-22日)
其中x軸是日期(8-1日到8-22日)y軸是每天的發消息量。翻看黃歷低峰都是休息的時候、
2.5每天星星出來的數量
其中x軸是日期(8-1日到8-22日)y軸是星星每天出來的數量
2.6每天新人數量
其中x軸是日期(8-1日到8-22日)y軸是新注冊的人每天來的數量
好了,到這里就結束了我的分析,大概就考慮到了這點,你從上面的數據報告中能得到神馬信息?可以回復文章中以供大家觀摩。我這里不多做點評。其實我打造的這個再完善點就可以作為閃存分析工具(本地mysql數據庫保存數據,爬蟲解析采用線程池,5k數據我划分了3個線程,大概幾十秒搞定)可以永久對閃存做每月或者每個季度的行為分析,潛在的商機不言而喻,通過這次分析,我發現數據的魅力很大、數據就是一個軟件的靈魂,而商業化點數據就是金錢,潛在的商機、歐碼噶的,google記錄的數據不知道能不能繪制一個藍圖?dudu我可不可把我的分析系統賣給你?哈哈哈(說這話我趕腳真不要臉,哈哈哈!)有時候我們coder更多的還是需要溝通,這樣有利於我們團隊建設,團隊合作的能力、而閃存就是一個輕型的工具,再透露個消息微軟已經收購了一個叫“yammer”的,sdk前不久剛剛發布,主打的就是公司內部的信息輕交流/閃存的魅力到此結束、先發布分析報告,技術的分享我稍后補上,這里不方便再寫了。












