對排名前3000位博主進行數據分析


數據分析

熱門博主

這里是在2017-05-20晚上爬取按照積分排名前3000位的博主,本文是在3000條博主的用戶信息,23萬條博主的活動信息的基礎上進行數據分析的,此數據基於學習的目的,不用於商業目的;

本來打算對具體動態信息做個排名,不過考慮到可能會涉及隱私,所以放棄,全文分析均為宏觀分析;

各個博主的出生地

3000位博主中,只有546位填了家鄉,比例為18%;

可以看的出來,湖北和河南的人數最多,廣東四川北京山東屬於第二梯隊;

各個博主的現居住地

3000位博主中,只有802位填了現在的居住地,比例為27%;

可以發現,這個時候,博主的工作地點變成了IT比較發達的省份,像是北京,廣東,浙江,上海,四川;

各個園齡所占的人數

大部分在博客園的時間在4-12年的時間,其中5年最多

工作職位的統計

206人填了信息,比例為7%

這里取的是排名前20位的職位,其中因為描述的不同導致結果存在些許不同,但可以發現其中軟件工程師居多

工作單位的統計

116人填了信息,5個騰訊,2個Autodesk,2個武漢大學,其余均不重復,其中100人在工作,16人在大學

上一次發布博客的時間

1258個日子,最近一天為2017-05-20,最遠一天為2005-04-14

其中越靠后表明上一次發布博客的時間離現在越近,不過不難發現依然存在挺多的人上次發布博客的時間離現在比較遠。

多少人進行了遷移(出生地跑到現居住地)

395人,此方法是按照出生地不等於現在居住地計算得出

結婚

107人填了信息,占整體比例為4%

單身比例最高,占了將近2/3,已婚次之

動態信息分布

發表話題和博客占用比例大體相當

分數平均值

以300為單位

可以發現,前300名大幅拉開和后面的差距

博客數量和分數、粉絲的關系

博客數量和分數並不是一個線性關系,表明並不是發表的博客數量越高分數就越高,不過貌似粉絲數量和分數存在些許關系。

總結

這個項目是我在工作之余花了一周的時間一變學習一邊寫出來的,其利用Scrapy爬蟲框架來實現,過程中也走了些彎路,基本都是靠不停的查找資料來解決問題。項目並不困難,數據分析也比較簡單,在后面可以加上詞頻分析等等,不過因為最近要開始找工作了,所以暫時要放置一段時間了。

文中如果有錯誤,請及時指出。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM