中文分詞方法以及一些算法


對於搜索引擎的搜索准確度影響很大
 
1.基於字符串匹配(機械分詞)   一般作為一個初分手段
(1)正向最大匹配法(需要充分大的詞典)
例子: 將句子 ’ 今天來了許多新同事 ’ 分詞。  設最大詞長為5
 
今天來了許
今天來了
今天來
今天  ====》 得到一個詞 – 今天
來了許多新
來了許多
來了許
來了
來   ====》 得到一個詞 – 來
了許多新同
了許多新
了許多
了許
了   ====》 得到一個詞 – 了
許多新同事
許多新同
許多新
許多 ====》得到一個詞 – 許多
新同事
新同
新   ====》得到一個詞 – 新
同事 ====》得到一個詞 – 同事
最后正向最大匹配的結果是:/今天/來/了/許多/新/同事/
 
 
 
 
缺陷:效率不高,尤其對於長文本分詞、精確度不高、不能解決詞的歧義問題
 
(2)逆向最大匹配 
 
與正向最大匹配法大致相同,方向相反, 逆向匹配的切分精度略高於正向匹配,遇到的歧義現象也較少
 
(3)最小切分法
 
使每一句切分出來的詞數最少
 
(4)雙向匹配法
 
結合正向最大與逆向最大方法
 
2.基於統計
 
定義兩個字的互現信息,計算兩個漢字X、Y的相鄰共現概率。互現信息體現了漢字之間結合關系的緊 密程度。當緊密程度高於某一個閾值時,便可認為此字組可能構成了一個詞。
配合詞典
 
主要統計模型為:N元文法模型(N-gram)、隱馬爾科夫模型(Hidden Markov Model, HMM)
 
bigram、trigram
 
全切分方法,找出最優切分,優點在於可以發現 新詞並且可以發現切分歧義。
 
 
3.基於理解
 
其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義 現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM