1.Noise channel model
上圖公式,可以利用貝葉斯公式進行推導。
2.數學基礎
(1)Chain rule(非常經典)
示例:
上圖,說明chain rule所得的條件概率項是通過統計所給文檔中出現今天、是、春節、我們、都的次數(圖中出現2次)和出現今天、是、春節、我們、都之后再出現休息的次數(圖中出現一次)
chain rule會出現稀疏性的問題
(2)馬爾科夫假設(markov assumption)---非常重要
利用1st order markov assumption的例題:
3.語言模型
語言模型用來判斷:一句話在語法上是否通順
(1)unigram(不考慮單詞之間的順序)
假設w1,w2,...wn是相互獨立的
而P(w1)、P(w2).....P(wn)的計算方法如下:
統計語料庫中某個單詞出現的次數,再除以語料庫的總詞數
案例:
(2)bigram(基於1st order markov assumption)---考慮單詞之間的順序
而P(w1)、P(w2/w1).....P(wn/wn-1)的計算方法如下:
案例:
(3)N-gram
4.語言模型的優化
若語料庫中不包含某個單詞,則會使得整個句子的聯合分布概率變為0,這是有很大缺陷的。
優化方法:smoothing 平滑
(1)Add one-smoothing(Lapalace smoothing)---非常好
案例:
注意:上圖中,V為語料庫中不重復的單詞個數
(2)Add-K smoothing(Lapalace smoothing)
5.語言模型的評估