文本分類資源和程序開源共享


作者:finallyly 出處:博客園 (轉載請注明 作者和出處)

前言:

感謝dudu和博客園的支持,我於2010年10月曾在博客園的個人博客中發布了個人整理的漢語新聞分類語料,以及文本分類流程程序。 歷時兩年收到了廣大網友的支持、批評和指正。現在面臨畢業,所以對自己碩士階段的工作進行了部分開源。

文本語料庫(包括中英文新聞)的詳細說明以及下載地址為: http://www.datatang.com/data/13484

文本分類程序最新版的詳細說明以及下載地址為: http://www.datatang.com/data/13483

文本分類的中間表達形式VSM模型的詳細說明以及下載地址為:

(1)英文語料的VSM模型: http://www.datatang.com/data/13486

(2)中文語料的VSM模型: http://www.datatang.com/data/13485

 同時也歡迎大家關注 中科院自動化所“自動化學科創新方法課題”數據專區的其他數據,如有數據需求,歡迎下載,更歡迎留下您寶貴的反饋意見。

關於文本分類程序說明,以及語料說明的博文地址為: http://www.cnblogs.com/finallyliuyu/archive/2010/10/04/1842261.html

 我們還會開源更多的資源和程序,如果您對中文DBLP感興趣,歡迎關注我的博客園博客,以及我們在數據堂建立的個人數據專區。專區用於資源共享,博客將會給出相應的算法設計,和代碼使用說明。

同時歡迎大家關注 

 http://weibo.com/autoinnovation

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM