中英文文本分類的區別


文本自動分類是分析特定文本的特征,並與已知類別中文本所具有的共同特征進行比較,然后將待定文本划歸為特征最接近的一類並賦予相應的分類號。文本分類一般包括文本的表示、分類器的選擇和訓練、分類結果的評價與反饋等過程,其中文本的表示有可細分為文本分詞、特征抽取等步驟。文本分類系統的總體框架如圖1所示,其主要功能模塊有一下四個:

由文本分類過程可以看出,中英文分類,在訓練階段之前都要經過一個表示和預處理的過程,即:表示成計算機能夠“認識”事物,並且需要去除無用的信息,減少后續步驟的復雜度和計算負擔,這個過程中中英文存在着顯著的不同點。

首先是文本表示,要經歷一個分詞的過程,就是把連續的文字流切分成一個一個單獨的詞匯(即:分詞),例如中文原文是“江蘇省是中國經濟發達的省份之一”的文本就要被切分成“江蘇省/是,中國,經濟,發達,的,省份,之一”這樣的形式。英文只需要通過空格和標點便很容易將一個一個獨立的詞從原文中區分出來。分詞的效果對文本分類的效果影響很大,在后面的流程中,分詞是后續流程的基礎,目前比較常用的方法有詞典法,隱馬爾科夫模型和新興的CRF方法。

分詞之后的“去停止詞”階段,中英文的也存在的差別,目的都是要把語言中一些表意能力很差的輔助性文字從原始文本中去除,對中文文本來說,類似“他”,“是”,“之一”,“的”這樣的詞匯都會被去除,英文也需要消除“an”,“in”,“the”等。中英文“去停詞”,一般都是通過查一個對應表進行的。

中文經過“去停詞”處理后基本就可以進入下一個階段了,英文還不行,需要進一步詞根還原。人們都知道,英文同一個詞有所謂詞形的變化(相對的,詞義本身卻並沒有變),例如名詞有單復數的變化,動詞有時態的變化,形容詞有比較級的變化等等,還包括這些變化形式的某種組合。例如:writed和writing都應該還原成write,因為其作為詞,表示的意思相同,所以需要“詞根還原”。

經過預處理步驟之后,訓練文本和待分類文本都被表示成了節省資源,計算機“認識”的形式,后面的其他階段中英文的分類處理就基本相同。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM