作者:finallyly 出處:博客園 (轉載請注明 作者和出處)
前言:
感謝dudu和博客園的支持,我於2010年10月曾在博客園的個人博客中發布了個人整理的漢語新聞分類語料,以及文本分類流程程序。 歷時兩年收到了廣大網友的支持、批評和指正。現在面臨畢業,所以對自己碩士階段的工作進行了部分開源。
文本語料庫(包括中英文新聞)的詳細說明以及下載地址為: http://www.datatang.com/data/13484
文本分類程序最新版的詳細說明以及下載地址為: http://www.datatang.com/data/13483
文本分類的中間表達形式VSM模型的詳細說明以及下載地址為:
(1)英文語料的VSM模型: http://www.datatang.com/data/13486
(2)中文語料的VSM模型: http://www.datatang.com/data/13485
同時也歡迎大家關注 中科院自動化所“自動化學科創新方法課題”數據專區的其他數據,如有數據需求,歡迎下載,更歡迎留下您寶貴的反饋意見。
關於文本分類程序說明,以及語料說明的博文地址為: http://www.cnblogs.com/finallyliuyu/archive/2010/10/04/1842261.html
我們還會開源更多的資源和程序,如果您對中文DBLP感興趣,歡迎關注我的博客園博客,以及我們在數據堂建立的個人數據專區。專區用於資源共享,博客將會給出相應的算法設計,和代碼使用說明。
同時歡迎大家關注
http://weibo.com/autoinnovation
