2-gram分詞


和前一篇介紹的最大概率分詞比較,2-gram分詞也是一種最大概率分詞,只不過在計算一個詞概率的時候,它不光考慮自己,還會考慮它的前驅。

我們需要兩個字典。第一個字典記錄詞\(w_i\)出現的頻次,第二個字典記錄詞對兒<\(w_j,w_i\)>共同出現的頻次。有這兩份字典,我們就可以計算出條件概率\(p(w_i|w_j)=p(w_i,w_j)/p(w_j)\)。

為了直觀表示計算過程,我們還是構建出一個圖出來。跟上一篇不同,這里換個方向,我們考慮結束字,而不是開始字,因為是后面的詞依賴前面的詞。

 

這里必須說明一個問題。n-gram是基於HMM的,它假定后面的狀態不會影響前面的狀態,因此當前面部分的分詞已經分完之后,它就不在受后面詞的影響了。當然,現實情況中不是這樣個樣子的,比如abcd中的abc不考慮d的最好分詞是a/bc,如果考慮了d就可能是a/bc了。為了簡單,這里先不做考慮。

那么,假設\(\alpha_i\)是以i結尾的最優分詞的累計概率,j是i的鄰接點,容易得到\(\alpha_i=max_jp(w(j,i)|w(?,j-1))*\alpha_{j-1}\).這里w(?,j-1)是以j-1結束的分詞結果中的最后一個詞。

可以看出這也是個動態規划問題,基本形式和上一篇最大概率分詞區別不大。

具體的代碼可以去


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM