[數據集]新浪微博數據集MicroblogPCU


數據集下載地址:下載

摘要:MicroblogPCU是從新浪微博採集到的。它能夠被用於研究機器學習方法和社會關系研究。

這個數據集被原作者用於探索微博中的spammers(發送垃圾信息的人)。他們的demo在這里


數據集的屬性信息:

weibo_user.csv  
-user_id: 用戶ID
-user_name: 用戶昵稱
-gender:性別,male,female。other
-class:賬戶級別
-message:賬戶注冊位置或其它個人信息
-post_num: 郵政編碼
-follower_num: followers的數量
-followee_num: followee的數量
-follow ratio: followee_num/follower_num;
-is_spammer: manually annotated label, 1 表示 spammer,0 表示 non-spammer;


user_post.csv 
-post_id:微博的ID
-post_time:公布時間
-poster_id: 公布用戶的ID
-repost_num:轉發數量
-commnet_num: 評論數量


followe-followee.csv 
-follower: the nickname of follower;
-follower_id: the user ID of follower;
-followee: the nickname of followee;
-followee_id: the user ID of followee;


post.csv和user_post.csv類似, and the post in it are retrievalled by a certain key word related to a topic;


取出當中的一部分數據做關系圖

install.packages('igraph')
library(igraph)

follower_followee<-read.csv('microblogPCU/follower_followee.csv')
follower_followee_part<-follower_followee[1:1000,]

gg<-graph.data.frame(data.frame(er=follower_followee_part$follower_id,ee=follower_followee_part$followee_id))
plot(gg,
     vertex.label=NA,      ##不顯示標簽
     edge.arrow.mode='-',  ##不使用箭頭
     vertex.size = 5       ##設置結點圓的大小
     )



參考:https://archive.ics.uci.edu/ml/datasets/microblogPCU


轉載請注明出處:http://blog.csdn.net/zhyoulun/article/details/46442899


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM