知乎用戶數據分析-練習


數據來源:知乎爬取(一萬條),鑒於數據樣本較小且考慮到取樣可能存在偏差,該分析僅用於數據分析實例練習

工具:Excel、tableau、mysql、navicat

 先用Excel進行簡單的數據處理--刪除空行、刪除重復項、無關數據隱藏。

通過mysql(由navicat導入,此前excel文件無關數據盡量做刪除處理)和tableau對數據進行分析。

 1、用戶性別比例。分別通過mysql、tableau餅圖發現一萬條數據中,男性(m)占比約四分之三,女性(f)僅四分之一左右。

 

 

 

 2、用戶登記學校與否的比例。比較登記學校和沒有登記學校的人數,發現97.9%的用戶沒有對學校進行登記,可能多數用戶對個人信息的保護意識比較強烈,也可能是注冊的時候覺得麻煩並未填寫。

 

 

用戶登記學校與否男女比例。分別對男、女用戶登記學校百分比進行對比發現,男生登記學校的比例高於女生。說明跟女生相比,男生更不在乎別人知道自己更多的信息。(左邊為男生,右邊為女生)

 

 

 

 

 

 

 

 

 

3、用戶工作領域分布。未標記工作領域用戶占比45.17%。標記了工作領域的用戶中,互聯網行業占多數,可能在互聯網從業人員眼中,知乎是一個可以分享和學習的比較不錯的工具。

 

 

 

 同時沒有標記工作領域的男性和女性的比例也接近3:1。

 比較有意思的是,互聯網從業者男女比例低於這一平均比例,倒也不算失衡,實際情況應該不會如此樂觀吧。

 4、行業粉絲數(可能某種程度也可以說用戶粉絲數)的多少和那些因素有關呢?

這是知乎行業的粉絲排行榜,這張圖給我的疑問太多。是不是回答的數量越多,粉絲越多呢?是不是獲得感謝越多,粉絲越多呢?是不是文章寫得越多,粉絲越多呢?

帶着上述疑問,我做了如下這張圖,根據分析結果,上面這幾個疑問的答案就不言而喻了。並不是答題數越多,粉絲就越多,這也提醒大家,產出高質量的答案和文章,比高數量的答案和文章更有價值,更能得到別人的關注。由於提取的用戶數據多數沒有標記城市,所以比較喜歡作答的地區沒有辦法進行數據分析,有點遺憾。

 

5、那么各行業的好奇寶寶(提問最多)與熱心市民(答題最多)分別是哪一位呢? 博物館行業平均答題數最高,剛好與我們對行業的直觀認知相契合。此處數據統計可用mysql或excel透視表實現。

 6、用戶粉絲數與答題數、獲得感謝數的關系是不是和行業粉絲數一致呢?通過下面這個圖可以看出,用戶的粉絲數和回答數及感謝數沒有必然的聯系,與上面的行業粉絲數一樣,回答問題質量高,粉絲數才會高。

 

7、那么男女用戶答題數、提問數、獲得感謝數和粉絲數有什么區別呢?

對比發現,男用戶比女用戶更喜歡提問與回答,社區積極性更高。同時女用戶的粉絲數和感謝數與男用戶基本持平,結合答題數來說,女用戶答題質量更高一些,分析認為女生更傾向於圍觀。

 

8、總結(數據只有一萬條,在分析過程中會存在較大誤差,以下結論對此不予考慮)

1)針對1、7兩個問題,知乎可以從女用戶視角入手來增加其用戶數,對女性群體的共同特點、興趣點等進行挖掘分析,開發出服務於女用戶的板塊,滿足這類用戶群體的需求。

2)針對用戶是否登記學校的問題,建議知乎從某種角度(例如,對登記了學校的用戶贈送知乎鹽值等)鼓勵用戶登記學校,然后將同一學校的用戶進行分類,設計一個校友推薦板塊(類似大街網),方便交流,增加用戶粘性。另外,可以設置通過學校查找用戶所在地址,設計一個同城板塊。

3)對於填寫工作領域的問題,用戶在注冊知乎時,應給以提醒(例:登記工作領域可以將工作領域和推薦內容更好的進行匹配),進而增強行業板塊話題熱度。

4)知乎的初衷就是讓每個人高效獲得可信賴的解答,針對上面的4、5、6三個問題,可從用戶粘性的角度出發采取相應措施(將知乎鹽值和鹽選會員掛鈎,鹽值越高,開通會員的價格梯度越低,價格梯度根據知乎盈利情況設定)。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM