ITTC數據挖掘平台介紹(二) 微博數據挖掘和分析


上節我們介紹了系統的基本框架和特性,本文我們將通過該平台進行微博數據挖掘,並給出一些有意思的結果。

一.微博和微博數據

1.分析微博的意義

       新浪的數據以每天海量的速度增長,它包含了四億網民的對國家大事的看法,對生活的訴求,對環境和人的觀點,以及人際間關系,是了解和分析復雜網絡和社會行為的無比重要的資源。因此開發微博分析軟件,是有非常重要的意義的。

2.加載微博分析獨立組件    

系統主要針對新浪微博,我們為微博開發了獨立組件包,將其動態鏈接庫dll文件拷貝到軟件的插件目錄下,系統就會自動加載。若不希望有該功能,只需簡單刪除鏈接文件庫即可。

image

系統會將微博相關的算法,資源,數據類型加載到系統插件庫中。

  3. 微博數據

組件包內置了用戶,微博,評論,熱點事件的數據類型的支持,同時提供了Entity Framework的數據庫訪問能力,使用方便。同時,軟件內置了新浪微博API接口,可以方便的從微博中采集微博數據,如下圖所示:

image

獲取數據后,可以通過下面的可視化組件查看這些數據。

image

您可以對這些數據做篩選,排序等操作,並送入數據管理器,為完成數據分析做准備。

二. 微博分析功能

1. 微博轉發和信息溯源

該功能可以讓我們了解和分析任一條微博的被轉發和評論情況,您可以以簡單有效的方式查看微博的事件流傳送過程。

使用方法很簡單,在數據管理器中選定任意一條微博,在系統菜單上點選“數據”中的”image“,系統即可自動進行分析,結果如下:

image

2.話題分類和觀點分析

該功能可以方便的對某用戶的話題進行分類,並通過軟件內置的”情感語義分析引擎“分析用戶情感。並通過可視化組件實現繪圖操作。

通過內置的微博采集器獲取某名人的微博信息。

image

將”觀點分析“和”圖表統計輸出“兩個算法模塊拖入算法處理器,並配置要處理的數據源。如下圖所示:

image

最終可輸出結果,分別以表格和圖表的形式,給出分類結果。

image

3. 微博傳播圖譜

微博在微博網絡中被轉發的結構,最終可表現為不同的傳播模式,36KR的一篇文章介紹了這個特性,鏈接在這里

我們也完成了類似的功能,並能實現動畫布點,按照時間順序,演示信息的轉發邏輯。使用方法也很簡單,類似本節第一條,在菜單中選取“微博傳播網絡”即可。

以下是潘總的微博”本月結束了,跑步100公里目標都沒有完成,僅97.6公里” 的轉發關系圖,明顯的,二次轉發較少,以一次轉發為主。

image

   三.用戶關系行為分析

1. 用戶關系分析

軟件可以對某一批用戶的關系進行分析,從而獲得用戶社團聚類,和人際關系網絡。在用戶關系分析中,我們采用了特別的相關度計算方法,結合用戶的共同喜好,共同好友,地理位置等行為實現計算。當然,由於不同類型的用戶可能具有完全不同的行為,軟件會自動適配算法參數和權重,並送入聚類模塊。

將“微博用戶關系計算”,聚類圖形顯示和K-Means數據聚類拖入算法處理器,如下圖所示:

image

這些算法通過自動組裝,可實現如下的計算流程:

image

用戶關系計算的結果送入K-means聚類中,最終將結果送入聚類圖形顯示中執行繪圖。整個過程全部自動化。

image

最終,可獲得好友關系圈,該人的好友主要分為兩類,其本科同學和研究生同學。分類結果良好。若希望能更細分,可以將聚類參數進行調節,從而獲得類似下圖的結果:

image(沒有完全顯示)

2.用戶數據統計

圖表統計輸出拖入到算法處理器, 該模塊會自動根據數據類型加載不同的統計方案,如下圖所示,我們采用地理位置的數量統計方法來統計用戶的好友地理分布,如圖所示:

image

image

3.用戶地理位置顯示

軟件可以根據微博的位置標簽,顯示某用戶在一段時間內的位置信息,並顯示在系統內置的地圖上。如下圖所示:

image

同時,還可以實現”路徑漫游”功能,動態播放運動軌跡。

 

四.總結和開發計划

  以上是軟件平台目前關於微博的功能介紹。當然,這些結果還不完善。我們下一步的工作是:

1. 對微博數據進行深入語義分析和更加智能的情感分析

2. 微博的輿情分析,以及事件追蹤圖

3. 對微博特殊用戶,如僵屍粉絲予以識別

4. 進一步了解和分析微博信息傳播途徑

 

有任何問題,歡迎進一步交流。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM