Cora 數據集介紹


0. 概述

Cora 數據集由機器學習論文組成,是近年來圖深度學習很喜歡使用的數據集。在數據集中,論文被分為以下七類之一:

  • 基於案例
  • 遺傳算法
  • 神經網絡
  • 概率方法
  • 強化學習
  • 規則學習
  • 理論

論文的選擇方式是,在最終語料庫中,每篇論文至少引用一篇論文或被至少一篇論文引用(即至少有一條出邊或至少有一條入邊,也就是樣本點之間存在聯系,沒有任何一個樣本點與其他樣本點完全沒聯系。如果將樣本點看做圖中的點,則這是一個連通的圖,不存在孤立點)。整個語料庫中有2708篇論文。在詞干堵塞和去除詞尾后,且文檔頻率小於10的所有單詞都被刪除后,只剩下1433個獨特的單詞。

1. 文件介紹

Cora 數據集中主要包含兩個文件:cora.contentcora.cites

1.1 cora.content

cora.content 共有 2708 行,每行代表一個樣本點,即一篇論文。一行由三部分組成:論文編號(raw_data的編號並非 0~2708)。接下來 1433 列是論文的詞向量。最后一列為論文類別,如 Neural_Networks

31336	0	0.....	0	0	0	0	0	0	0	0	0	0	0	0	Neural_Networks
1061127	0	0.....	0	0	0	0	0	0	0	0	0	0	0	0	Rule_Learning
1106406	0	0.....	0	0	0	0	0	0	0	0	0	0	0	0	Reinforcement_Learning

1.2 cora.cites

cora.cites 共有 5429 行,每一行有兩個論文編號,表示第一個論文先寫,第二個論文引用第一個論文。如果將論文看做圖中的點,那么這5429行便是點之間的5429條邊。

35	1033
35	103482
35	103515


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM