中文分詞方法以及一些算法

本文轉載自查看原文 2018-03-01 11:42 2274 NLP自然語言處理

對於搜索引擎的搜索准確度影響很大

1.基於字符串匹配（機械分詞）一般作為一個初分手段

（1）正向最大匹配法（需要充分大的詞典）

例子: 將句子 ’ 今天來了許多新同事 ’ 分詞。設最大詞長為5

今天來了許

今天來了

今天來

今天 ====》得到一個詞 – 今天

來了許多新

來了許多

來了許

來了

來 ====》得到一個詞 – 來

了許多新同

了許多新

了許多

了許

了 ====》得到一個詞 – 了

許多新同事

許多新同

許多新

許多 ====》得到一個詞 – 許多

新同事

新同

新 ====》得到一個詞 – 新

同事 ====》得到一個詞 – 同事

最后正向最大匹配的結果是：/今天/來/了/許多/新/同事/

缺陷：效率不高，尤其對於長文本分詞、精確度不高、不能解決詞的歧義問題

（2）逆向最大匹配

與正向最大匹配法大致相同，方向相反，逆向匹配的切分精度略高於正向匹配，遇到的歧義現象也較少

（3）最小切分法

使每一句切分出來的詞數最少

（4）雙向匹配法

結合正向最大與逆向最大方法

2.基於統計

定義兩個字的互現信息，計算兩個漢字X、Y的相鄰共現概率。互現信息體現了漢字之間結合關系的緊密程度。當緊密程度高於某一個閾值時，便可認為此字組可能構成了一個詞。

配合詞典

主要統計模型為：N元文法模型（N-gram）、隱馬爾科夫模型(Hidden Markov Model, HMM)

bigram、trigram

全切分方法，找出最優切分，優點在於可以發現新詞並且可以發現切分歧義。

3.基於理解

其基本思想就是在分詞的同時進行句法、語義分析，利用句法信息和語義信息來處理歧義現象。它通常包括三個部分：分詞子系統、句法語義子系統、總控部分。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 分詞用到的一些方法和工具－－NLTK的一些分詞方法中文分詞算法綜述中文分詞算法總結關於scws分詞的一些記錄隨思：關於中文分詞方法中文分詞常用方法中文分詞基本算法主要分類 Mmseg中文分詞算法解析一些算法（套路） java一些基本算法