對於搜索引擎的搜索准確度影響很大
1.基於字符串匹配(機械分詞) 一般作為一個初分手段
(1)正向最大匹配法(需要充分大的詞典)
例子: 將句子 ’ 今天來了許多新同事 ’ 分詞。 設最大詞長為5
今天來了許
今天來了
今天來
今天 ====》 得到一個詞 – 今天
來了許多新
來了許多
來了許
來了
來 ====》 得到一個詞 – 來
了許多新同
了許多新
了許多
了許
了 ====》 得到一個詞 – 了
許多新同事
許多新同
許多新
許多 ====》得到一個詞 – 許多
新同事
新同
新 ====》得到一個詞 – 新
同事 ====》得到一個詞 – 同事
最后正向最大匹配的結果是:/今天/來/了/許多/新/同事/


缺陷:效率不高,尤其對於長文本分詞、精確度不高、不能解決詞的歧義問題
(2)逆向最大匹配
與正向最大匹配法大致相同,方向相反, 逆向匹配的切分精度略高於正向匹配,遇到的歧義現象也較少
(3)最小切分法
使每一句切分出來的詞數最少
(4)雙向匹配法
結合正向最大與逆向最大方法
2.基於統計
定義兩個字的互現信息,計算兩個漢字X、Y的相鄰共現概率。互現信息體現了漢字之間結合關系的緊 密程度。當緊密程度高於某一個閾值時,便可認為此字組可能構成了一個詞。
配合詞典
主要統計模型為:N元文法模型(N-gram)、隱馬爾科夫模型(Hidden Markov Model, HMM)
bigram、trigram
全切分方法,找出最優切分,優點在於可以發現 新詞並且可以發現切分歧義。
3.基於理解
其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義 現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。