計算微博垂直領域的傳播力排名


這幾天,我計算了幾個領域的PageRank,包括投資人,程序員這種大的垂直領域,也包括“機器學習”“數據挖掘”等這樣的小的領域。在挖掘的過程中,也遇到很多有意思的事情。不過,做這個,並不是要給誰排座次,只是想嘗試挖掘出來一些有意思的東西。

下面是我通過“機器學習”“數據挖掘”“信息檢索”等關鍵字找出來的一批人,然后再計算排名得到的結果。后面一列是粉絲數。不過一些新開通微博的牛人:@余凱 @老師木 尚不在其中。我的數據是之前的一個快照。

這樣的一個排序,和粉絲的數量關系就不太一致了。所以,垂直領域,還是能夠做出很有意思的東西的。可以進一步挖掘,到底哪些因素影響了某一排名。

  1. 張棟_機器學習    48966
  2. 李航博士    20336
  3. 劉挺    44324
  4. 孫茂松    6147
  5. 沈浩老師    30236
  6. 馬少平THU    6964
  7. 小蚊子樂園    37021
  8. 王斌_ICTIR   7032
  9. 劉鐵岩    11266
  10. 王海峰_百度   10679
  11. 白碩    SH9930
  12. ICTCLAS張華平博士    4714
  13. 劉群MT-to-Death    3261
  14. 鄭來軼    10421
  15. 張磊IDMer    6571
  16. 謝幸Xing    14620

綜合一下這些事情,可以得出,對微博博主進行PageRank計算,得到的結果的含義:每一個博主的PageRank值,直接代表了博主的傳播力。具體點說,就是博主發布一條微博消息,能夠傳播覆蓋多少人,越多傳播力越到,PageRank越大。很多同學會講,這個不就是粉絲的數量么?不是的,粉絲本身有的質量高,有的質量低,實際上能夠影響多少人,這個是需要衡量的。舉一個例子,某一個博主300w粉絲,大部分買來的僵屍粉,而另外一個博主,只有3w,都是一個一個積累起來的。對於做營銷而言,哪個更好呢?顯然是后者。PageRank在一定程度上,就是起到了着作用。

PageRank是一種計算的框架,一種計算的方法。在這個框架下,我們可以有很多的改進,比如就拿上面的這些人來看,我們如果想要計算專家能力排序,應該怎么做呢?僅僅是有關注,就確切表示一條邊么?其實在網絡建模的過程中,我們有很多的基礎可以用來加強模型,或者利用不同的信息,為不同目的建立模型。比如,這條關注的邊強度有多大呢?如何來衡量,一個很有用的點就是微博上兩個人之間的交互信息。這個很重要,新浪可以做很多事情。

 

社交網絡時代,數據為王。我們有很多工具,很多算法可以來做挖掘,但是,沒有數據,都是白費心思的。尤其是涉及到網絡的一些挖掘,網絡規模達到一定程度,好多性質是不會涌現出來的。

希望和更多的同學一起交流。

計算的工具依然是graphchi,非常好用。限定領域這塊兒,我做的比較粗糙,目前就是通過關鍵字去檢索。只要匹配上了,我就認為這個博主是該領域相關的。這部分,也是需要一些工作量的。也是很有意思,很有價值的一塊兒工作。

【完】


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM