拉普拉斯平滑(Laplace Smoothing)又稱 加1平滑,常用平滑方法。解決零概率問題。
背景:為什么要做平滑處理?
零概率問題:在計算實例的概率時,如果某個量x,在觀察樣本庫(訓練集)中沒有出現過,會導致整個實例的概率結果是0。
在文本分類的問題中,當一個詞語沒有在訓練樣本中出現,該詞語調概率為0,使用連乘計算文本出現概率時也為0。
這是不合理的,不能因為一個事件沒有觀察到就武斷的認為該事件的概率是0。
拉普拉斯的理論支撐
為了解決零概率的問題,法國數學家拉普拉斯最早提出用加1的方法估計沒有出現過的現象的概率,所以加法平滑也叫做拉普拉斯平滑。
假定訓練樣本很大時,每個分量x的計數加1造成的估計概率變化可以忽略不計,但可以方便有效的避免零概率問題。
應用舉例
假設在文本分類中,有3個類,C1、C2、C3,在指定的訓練樣本中,某個詞語K1,在各個類中觀測計數分別為0,990,10,K1的概率為0,0.99,0.01,對這三個量使用拉普拉斯平滑的計算方法如下:
1/1003 = 0.001,991/1003=0.988,11/1003=0.011
在實際的使用中也經常使用加 lambda(1≥lambda≥0)來代替簡單加1。如果對N個計數都加上lambda,這時分母也要記得加上N*lambda。