轉自 http://www.360doc.com/content/12/0216/21/3430376_187198503.shtml
中文文本分類語料庫-TanCorpV1.0
譚松波,王月粉 1 語料簡介 相比於國際上眾多的英文分類語料庫而言,本人深感中文分類語料庫非常缺乏。因此,建立一個較具規模的中文語料庫一直是本人的夙願。但手工收集上萬篇文本確實比較困難,因此收集工作進展較慢。直到最近才告一段落。 本語料庫分為兩個層次,收集文本14150篇。第一層為12個類別;第二層為60個類別。層次結構及每類樣本數如下表: 表1 語料的層次結構
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2 使用說明 本語料采用詞頻矩陣的方式給出,其格式采用Han[1-2]定義的格式,Han數據格式包括三個文件,即x.mat、x.mat.rlabel和x.mat.clabel。由於格式只能表示單層語料,本人對它進行了擴充,增加了一個文件,x.mat.hlabel。這樣就能描述多層語料,並能兼容單層語料。 x.mat表示詞頻矩陣。該文件的第一行的三個數字分別表示文檔數、詞數和該矩陣的詞-詞頻對的個數。其余每行表示一篇文檔,具體格式為:詞 詞頻,…,詞 詞頻;x.mat.rlabel是類別文件,每行一個類別名,對應x.mat中每篇文檔的類別,對多層而言,它表示文檔的葉子節點類別;x.mat.clabel是詞名,也就是字典。字典中每個詞語的編號等於它所在行的行號;x.mat.hlabel描述每個類別的層次關系。 預處理采用分詞工具ICTCLAS[3]對文檔進行分詞,並去掉數字與標點符號。 本人歡迎各位業界同行使用本分類語料,並希望用如下方式加以引用: [1] 譚松波,王月粉. 中文文本分類語料庫-TanCorpV1.0. 本頁面網址. [2] Songbo Tan et al. A Novel Refinement Approach for Text Categorization. ACM CIKM 2005. 本語料可以作為三個分類語料集使用: TanCorp-12:單層語料 TanCorp-60:單層語料 TanCorpHier:兩層語料 特別聲明:本語料僅作學術研究之用,不可用於任何商業用途! 若您有任何問題或建議,請直接跟我聯系。 3 算法評測 為了驗證語料的有效性,我們采用五種經典的文本分類算法進行評測,即中心法[1]、最近鄰[4]、Winnow[5]、貝葉斯[6]與SVMTorch[7]。Winnow采用平衡Winnow;貝葉斯采用多項式模型;SVMTorch采用線性核函數。所有實驗都采用三分交叉驗證,即把數據集隨機划分成三份,每次取其中兩份進行訓練,一份進行測試,然后把三次分類結果的平均結果作為最終結果。 實驗結果基本反映了我們的預期結果。在TanCorp-12上SVMTorch絕對是頂級表現者。在TanCorp-60上SVMTorch的性能比中心法要差一點,這主要是因為TanCorp-60樣本分布的嚴重不均衡性。 表2: 五種分類算法在TanCorp上的最好微平均比較
表3: 五種分類算法在TanCorp上的最好宏平均比較
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
引用文獻: [1] E. Han, Karypis. Centroid-Based Document Classification: Analysis & Experimental Resultsl. The Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases, 2000 [2] E. Han. http://www.cs.umn.edu/˜han/data/tmdata.tar.gz. [3] Huaping Zhang. Chinese Lexical Analysis Using Hierarchical Hidden Markov Model. Second SIGHAN workshop affiliated with 41th ACL. Sapporo Japan, July, 2003, pp. 63-70 [4] Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1(1): 76-88. [5] P.P.T.M. van Mun. Text Classification in Information Retrieval using Winnow. http://citeseer.ist.psu.edu/cs. [6] Andrew McCallum, Kamal Nigam. A Comparison of Event Models for Naive Bayes Text Classification. AAAI/ICML-98 Workshop on Learning for Text Categorization[C]. Menlo Park, CA: AAAI Press. 1998, 41-48. [7] SVMTorch. http://www.idiap.ch/~bengio/projects/SVMTorch.html.
常見問題 1. 我從您的主頁上下載了部分語料庫,但是系統顯示文件是access的快捷方式,文件很大,但是不知道如何打開,使用? 答:不能使用access打開,可以使用UltraEdit打開。 2. 我下載了你主頁上的中文語料,解壓后在matlab中為什么不能Load? 答:".mat"只是表示該文件存儲的是詞頻矩陣,跟matlab沒有關系。 3. 我打開您語料中的.mat文件時有錯誤,是怎么回事呢?或者您能把它存成其他格式嗎,比如.txt文件。 答:可能是因為你采用別的軟件來打開它。目前已提供預處理后的txt文件下載。 |