復雜網絡的研究很多都離不開數據集,下面這些是個人在做科研的過程中在互聯網上搜集到的一些數據集網站,列舉出來也方便同行們去使用。(2018年12月17日更)
1、http://vladowiki.fmf.uni-lj.si/doku.php?id=pajek:data:urls:index
數據集網站集合。這個網站中列出來很多數據集網站,非常全,其中的很多網站數據描述詳細,而且數據可以直接下載,大家可以從中選出一些網站收藏起來。
2、http://snap.stanford.edu/data/
這個是斯坦福大學的大型網絡數據集網站,大家應該比較熟悉了。
3、http://konect.uni-koblenz.de/
這個網站是我個人最喜歡也是最常用的網站,里面數據集有上百種,數據的分類和描述真的是特別詳細,而且還給出了數據集的可視化圖以及一些基本統計特性,所有數據均可以直接下載。
4、http://networkrepository.com/index.php
這是另一個個人特別喜歡也是很常用的網站,和上面一樣數據分類也是相當的詳細,而且數據都可以在線可視化,大家應該能找到自己想要的數據。
5、http://gdm.fudan.edu.cn/GDMWiki/Wiki.jsp?page=Network DataSet
這是復旦大學建立的網絡數據集網站,里面有一些常用數據集以及一些相關資源網站。
6、https://www.aminer.cn/data-sna#Twitter-Dynamic-Net
搞數據挖掘應該都或多或少知道Aminer和唐傑,這是Aminer上的一些社交網絡數據集。
7、https://toreopsahl.com/datasets/
這個網站里面有十幾個數據集,包含社交網絡、交通網絡、合作網絡等常用數據集。
8、http://netwiki.amath.unc.edu/SharedData/SharedData
這個網站列出了一些數據集以及一些復雜網絡大牛的個人數據網站,大家可以去看看。
9、http://vlado.fmf.uni-lj.si/pub/networks/data/
這個是Pajek網站提供的數據集,里面的數據都很經典,復雜網絡早期研究中很多數據集都是源於這里。
10、http://socialcomputing.asu.edu/pages/datasets
社交網絡數據集,里面包含國內外一些常用在線社區網站的數據集,中型到大型的數據規模,搞社會計算的同行可能用的比較多。
11、http://www.sociopatterns.org/datasets/
另一個社交網絡數據集,這里面的數據集更多傾向於實體網絡,比如聯系網、高校朋友網、疾病傳播網。
12、http://www-personal.umich.edu/~mejn/netdata/
大牛Newman教授的個人數據網站,里面的數據集特別是科學家合作網絡,用到特別多。
以上是一些個人用到比較多的復雜網絡數據網站,鑒於自己的了解有限,可能對這些數據集網站給出的描述還不夠詳細,而且很多單位都沒有列出來,敬請諒解。當然了如果想用里面的數據集,一定要記得引用數據集作者們的信息,他們收集數據並公開方便大家使用也是很不容易的。如果轉載本文,也請注明出處^_^.
補充說明:如果具備以下兩個技能,構造復雜網絡數據集將會變得簡單:
(1) 文本處理(尤其是正則表達式)。因為很多原始數據包含很多冗余信息,可以運用文本處理來提取自己想要的關鍵信息,並在此基礎上構造節點和連邊關系。
(2) 網絡爬蟲。有時候從網絡上根本找不到想要的現成數據,這時可以運用網絡爬蟲去爬取數據來構造復雜網絡。
博文另見個人簡書主頁:https://www.jianshu.com/p/9313bc75c94b