這幾天,我計算了幾個領域的PageRank,包括投資人,程序員這種大的垂直領域,也包括“機器學習”“數據挖掘”等這樣的小的領域。在挖掘的過程中,也遇到很多有意思的事情。不過,做這個,並不是要給誰排座次,只是想嘗試挖掘出來一些有意思的東西。
下面是我通過“機器學習”“數據挖掘”“信息檢索”等關鍵字找出來的一批人,然后再計算排名得到的結果。后面一列是粉絲數。不過一些新開通微博的牛人:@余凱 @老師木 尚不在其中。我的數據是之前的一個快照。
這樣的一個排序,和粉絲的數量關系就不太一致了。所以,垂直領域,還是能夠做出很有意思的東西的。可以進一步挖掘,到底哪些因素影響了某一排名。
- 張棟_機器學習 48966
- 李航博士 20336
- 劉挺 44324
- 孫茂松 6147
- 沈浩老師 30236
- 馬少平THU 6964
- 小蚊子樂園 37021
- 王斌_ICTIR 7032
- 劉鐵岩 11266
- 王海峰_百度 10679
- 白碩 SH9930
- ICTCLAS張華平博士 4714
- 劉群MT-to-Death 3261
- 鄭來軼 10421
- 張磊IDMer 6571
- 謝幸Xing 14620
綜合一下這些事情,可以得出,對微博博主進行PageRank計算,得到的結果的含義:每一個博主的PageRank值,直接代表了博主的傳播力。具體點說,就是博主發布一條微博消息,能夠傳播覆蓋多少人,越多傳播力越到,PageRank越大。很多同學會講,這個不就是粉絲的數量么?不是的,粉絲本身有的質量高,有的質量低,實際上能夠影響多少人,這個是需要衡量的。舉一個例子,某一個博主300w粉絲,大部分買來的僵屍粉,而另外一個博主,只有3w,都是一個一個積累起來的。對於做營銷而言,哪個更好呢?顯然是后者。PageRank在一定程度上,就是起到了着作用。
PageRank是一種計算的框架,一種計算的方法。在這個框架下,我們可以有很多的改進,比如就拿上面的這些人來看,我們如果想要計算專家能力排序,應該怎么做呢?僅僅是有關注,就確切表示一條邊么?其實在網絡建模的過程中,我們有很多的基礎可以用來加強模型,或者利用不同的信息,為不同目的建立模型。比如,這條關注的邊強度有多大呢?如何來衡量,一個很有用的點就是微博上兩個人之間的交互信息。這個很重要,新浪可以做很多事情。
社交網絡時代,數據為王。我們有很多工具,很多算法可以來做挖掘,但是,沒有數據,都是白費心思的。尤其是涉及到網絡的一些挖掘,網絡規模達到一定程度,好多性質是不會涌現出來的。
希望和更多的同學一起交流。
計算的工具依然是graphchi,非常好用。限定領域這塊兒,我做的比較粗糙,目前就是通過關鍵字去檢索。只要匹配上了,我就認為這個博主是該領域相關的。這部分,也是需要一些工作量的。也是很有意思,很有價值的一塊兒工作。
【完】