NLP學習筆記06---語言模型(Chain rule、markov assumption、unigram、bigram、N-gram)


1.Noise channel model

 

上圖公式,可以利用貝葉斯公式進行推導。

2.數學基礎

(1)Chain rule(非常經典)

 

示例:

上圖,說明chain rule所得的條件概率項是通過統計所給文檔中出現今天、是、春節、我們、都的次數(圖中出現2次)和出現今天、是、春節、我們、都之后再出現休息的次數(圖中出現一次)

chain rule會出現稀疏性的問題

(2)馬爾科夫假設(markov assumption)---非常重要

 

利用1st order markov assumption的例題:

 

 

3.語言模型

語言模型用來判斷:一句話在語法上是否通順

(1)unigram(不考慮單詞之間的順序)

假設w1,w2,...wn是相互獨立的

 

而P(w1)、P(w2).....P(wn)的計算方法如下:

統計語料庫中某個單詞出現的次數,再除以語料庫的總詞數

案例:

 

 

(2)bigram(基於1st order markov assumption)---考慮單詞之間的順序

 

而P(w1)、P(w2/w1).....P(wn/wn-1)的計算方法如下:

案例:

(3)N-gram

4.語言模型的優化

若語料庫中不包含某個單詞,則會使得整個句子的聯合分布概率變為0,這是有很大缺陷的。

優化方法:smoothing 平滑

 

(1)Add one-smoothing(Lapalace smoothing)---非常好

 

 

案例:

 

注意:上圖中,V為語料庫中不重復的單詞個數

(2)Add-K smoothing(Lapalace smoothing)

 

 

 

 

5.語言模型的評估

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM