0. 概述
Cora 數據集由機器學習論文組成,是近年來圖深度學習很喜歡使用的數據集。在數據集中,論文被分為以下七類之一:
- 基於案例
- 遺傳算法
- 神經網絡
- 概率方法
- 強化學習
- 規則學習
- 理論
論文的選擇方式是,在最終語料庫中,每篇論文至少引用一篇論文或被至少一篇論文引用(即至少有一條出邊或至少有一條入邊,也就是樣本點之間存在聯系,沒有任何一個樣本點與其他樣本點完全沒聯系。如果將樣本點看做圖中的點,則這是一個連通的圖,不存在孤立點)。整個語料庫中有2708篇論文。在詞干堵塞和去除詞尾后,且文檔頻率小於10的所有單詞都被刪除后,只剩下1433個獨特的單詞。
1. 文件介紹
Cora 數據集中主要包含兩個文件:cora.content
和 cora.cites
1.1 cora.content
cora.content
共有 2708 行,每行代表一個樣本點,即一篇論文。一行由三部分組成:論文編號(raw_data的編號並非 0~2708)。接下來 1433 列是論文的詞向量。最后一列為論文類別,如 Neural_Networks
。
31336 0 0..... 0 0 0 0 0 0 0 0 0 0 0 0 Neural_Networks
1061127 0 0..... 0 0 0 0 0 0 0 0 0 0 0 0 Rule_Learning
1106406 0 0..... 0 0 0 0 0 0 0 0 0 0 0 0 Reinforcement_Learning
1.2 cora.cites
cora.cites
共有 5429 行,每一行有兩個論文編號,表示第一個論文先寫,第二個論文引用第一個論文。如果將論文看做圖中的點,那么這5429行便是點之間的5429條邊。
35 1033
35 103482
35 103515