數據分析
熱門博主
這里是在2017-05-20晚上爬取按照積分排名前3000位的博主,本文是在3000條博主的用戶信息,23萬條博主的活動信息的基礎上進行數據分析的,此數據基於學習的目的,不用於商業目的;
本來打算對具體動態信息做個排名,不過考慮到可能會涉及隱私,所以放棄,全文分析均為宏觀分析;
各個博主的出生地
3000位博主中,只有546位填了家鄉,比例為18%;

可以看的出來,湖北和河南的人數最多,廣東四川北京山東屬於第二梯隊;
各個博主的現居住地
3000位博主中,只有802位填了現在的居住地,比例為27%;

可以發現,這個時候,博主的工作地點變成了IT比較發達的省份,像是北京,廣東,浙江,上海,四川;
各個園齡所占的人數

大部分在博客園的時間在4-12年的時間,其中5年最多
工作職位的統計
206人填了信息,比例為7%

這里取的是排名前20位的職位,其中因為描述的不同導致結果存在些許不同,但可以發現其中軟件工程師居多
工作單位的統計
116人填了信息,5個騰訊,2個Autodesk,2個武漢大學,其余均不重復,其中100人在工作,16人在大學
上一次發布博客的時間
1258個日子,最近一天為2017-05-20,最遠一天為2005-04-14

其中越靠后表明上一次發布博客的時間離現在越近,不過不難發現依然存在挺多的人上次發布博客的時間離現在比較遠。
多少人進行了遷移(出生地跑到現居住地)
395人,此方法是按照出生地不等於現在居住地計算得出
結婚
107人填了信息,占整體比例為4%

單身比例最高,占了將近2/3,已婚次之
動態信息分布

發表話題和博客占用比例大體相當
分數平均值
以300為單位

可以發現,前300名大幅拉開和后面的差距
博客數量和分數、粉絲的關系

博客數量和分數並不是一個線性關系,表明並不是發表的博客數量越高分數就越高,不過貌似粉絲數量和分數存在些許關系。
總結
這個項目是我在工作之余花了一周的時間一變學習一邊寫出來的,其利用Scrapy爬蟲框架來實現,過程中也走了些彎路,基本都是靠不停的查找資料來解決問題。項目並不困難,數據分析也比較簡單,在后面可以加上詞頻分析等等,不過因為最近要開始找工作了,所以暫時要放置一段時間了。
文中如果有錯誤,請及時指出。
