中文文本分類語料庫-TanCorpV1.0


轉自 http://www.360doc.com/content/12/0216/21/3430376_187198503.shtml

 

中文文本分類語料庫-TanCorpV1.0

譚松波,王月粉

1 語料簡介

    相比於國際上眾多的英文分類語料庫而言,本人深感中文分類語料庫非常缺乏。因此,建立一個較具規模的中文語料庫一直是本人的夙願。但手工收集上萬篇文本確實比較困難,因此收集工作進展較慢。直到最近才告一段落。

    本語料庫分為兩個層次,收集文本14150篇。第一層為12個類別;第二層為60個類別。層次結構及每類樣本數如下表:

表1 語料的層次結構

財經

財富

19

汽車

汽車百科

118

金融

267

汽車快訊

258

企業

164

汽車行駛

176

人物

64

汽車政策

38

消費

91

人才

人才創業

39

證券

214

人才管理

412

地域

地域城市

71

人才獵取

39

地域風俗

47

人才履歷

39

地域美食

32

人才薪金

40

電腦

電腦病毒

631

人才應試

39

電腦科技

574

體育

籃球

962

電腦軟件

426

乒球

112

電腦網絡

517

棋牌

50

電腦游戲

102

水上

94

電子商務

693

田徑

84

房產

城建

76

網球

131

私宅

433

羽球

55

裝修

172

足球

1317

組屋

254

衛生

保健

625

教育

出版

48

兩性

335

就業

146

心理

63

考試

173

醫葯

383

留學

67

藝術

古董藝術

51

培訓

21

美學藝術

84

校園

226

文學藝術

153

招生

127

舞台藝術

185

科技

考古科學

183

音樂藝術

73

生命科學

459

娛樂

電影娛樂

499

天文科學

169

音樂娛樂

500

自然科學

229

綜藝娛樂

501

 

 

2 使用說明

    本語料采用詞頻矩陣的方式給出,其格式采用Han[1-2]定義的格式,Han數據格式包括三個文件,即x.mat、x.mat.rlabel和x.mat.clabel。由於格式只能表示單層語料,本人對它進行了擴充,增加了一個文件,x.mat.hlabel。這樣就能描述多層語料,並能兼容單層語料。

    x.mat表示詞頻矩陣。該文件的第一行的三個數字分別表示文檔數、詞數和該矩陣的詞-詞頻對的個數。其余每行表示一篇文檔,具體格式為:詞 詞頻,…,詞 詞頻;x.mat.rlabel是類別文件,每行一個類別名,對應x.mat中每篇文檔的類別,對多層而言,它表示文檔的葉子節點類別;x.mat.clabel是詞名,也就是字典。字典中每個詞語的編號等於它所在行的行號;x.mat.hlabel描述每個類別的層次關系。

    預處理采用分詞工具ICTCLAS[3]對文檔進行分詞,並去掉數字與標點符號。    

    本人歡迎各位業界同行使用本分類語料,並希望用如下方式加以引用:

    [1] 譚松波,王月粉. 中文文本分類語料庫-TanCorpV1.0. 本頁面網址.

    [2] Songbo Tan et al. A Novel Refinement Approach for Text Categorization. ACM CIKM 2005.

    本語料可以作為三個分類語料集使用:

    TanCorp-12:單層語料

   
   

 

    TanCorp-60:單層語料

   

 

   

 

    TanCorpHier:兩層語料

   

 

   

 

    特別聲明:本語料僅作學術研究之用,不可用於任何商業用途!

    若您有任何問題或建議,請直接跟我聯系。

3 算法評測

為了驗證語料的有效性,我們采用五種經典的文本分類算法進行評測,即中心法[1]、最近鄰[4]、Winnow[5]、貝葉斯[6]與SVMTorch[7]。Winnow采用平衡Winnow;貝葉斯采用多項式模型;SVMTorch采用線性核函數。所有實驗都采用三分交叉驗證,即把數據集隨機划分成三份,每次取其中兩份進行訓練,一份進行測試,然后把三次分類結果的平均結果作為最終結果。

    實驗結果基本反映了我們的預期結果。在TanCorp-12上SVMTorch絕對是頂級表現者。在TanCorp-60上SVMTorch的性能比中心法要差一點,這主要是因為TanCorp-60樣本分布的嚴重不均衡性。

表2: 五種分類算法在TanCorp上的最好微平均比較

 

中心法

最近鄰

Winnow

貝葉斯

SVMTorch

TanCorp-12

0.9053

0.9035

0.8645

0.9157

0.9483

TanCorp-60

0.8057

0.7847

0.7176

0.8069

0.7782

表3: 五種分類算法在TanCorp上的最好宏平均比較

 

中心法

最近鄰

Winnow

貝葉斯

SVMTorch

TanCorp-12

0.8632

0.8478

0.7587

0.8688

0.9172

TanCorp-60

0.7562

0.7001

0.6684

0.7025

0.7493

     

引用文獻:

[1]  E. Han, Karypis. Centroid-Based Document Classification: Analysis & Experimental Resultsl. The Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases, 2000

[2] E. Han. http://www.cs.umn.edu/˜han/data/tmdata.tar.gz.

[3] Huaping Zhang. Chinese Lexical Analysis Using Hierarchical Hidden Markov Model. Second SIGHAN workshop affiliated with 41th ACL. Sapporo Japan, July, 2003, pp. 63-70   

[4] Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1(1): 76-88.

[5] P.P.T.M. van Mun. Text Classification in Information Retrieval using Winnow. http://citeseer.ist.psu.edu/cs.

[6] Andrew McCallum, Kamal Nigam. A Comparison of Event Models for Naive Bayes Text Classification. AAAI/ICML-98 Workshop on Learning for Text Categorization[C]. Menlo Park, CA: AAAI Press. 1998, 41-48.

[7] SVMTorch. http://www.idiap.ch/~bengio/projects/SVMTorch.html.

 

常見問題

1. 我從您的主頁上下載了部分語料庫,但是系統顯示文件是access的快捷方式,文件很大,但是不知道如何打開,使用?

答:不能使用access打開,可以使用UltraEdit打開。

2. 我下載了你主頁上的中文語料,解壓后在matlab中為什么不能Load?

答:".mat"只是表示該文件存儲的是詞頻矩陣,跟matlab沒有關系。

3. 我打開您語料中的.mat文件時有錯誤,是怎么回事呢?或者您能把它存成其他格式嗎,比如.txt文件。

答:可能是因為你采用別的軟件來打開它。目前已提供預處理后的txt文件下載。  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM