前段時間開始研究圖像檢索,進展困難,於是回歸基礎,捧起PRML一書,無奈看起來極其暈乎,參考AN的的講義才有點初步的認識。
1、概述:什么是生成學習算法
兩類學習算法:判別學習算法(discriminative learning algorithm)和生成學習算法(generative learning algorithm)。DLA通過建立輸入空間X與輸出標注{1, 0}間的映射關系學習得到p(y|x)。而GLA首先確定p(x|y)和p(y),由貝葉斯准則得到后驗分布。通過最大后驗准則進行預測,也即
。
2、GDA(Gaussian Discriminant Analysis model)高斯判決模型
模型:二類問題
=============>
其中,輸入特征x是連續隨機變量。
訓練:
對四個參數分別求極值(閉式解):
GDA的優勢:由於有高斯分布的先驗信息,如果確實符合實際數據,則只需要少量的樣本就可以得到較好的模型。對比之下,logistic回歸模型有更好的魯棒性。
3、Naive Bayes
輸入特征X離散特征,並且有Naïve Bayes assumption,即xi在y的條件下獨立:
,n為詞表的維數。
訓練模型(聯合概率分布):給定訓練樣本
,
其中,
,
閉式解:
預測:輸入一個n維特征值(如詞表),由貝葉斯准則得到后驗概率
由最大后驗准則得到分類結果。
4、Laplace平滑
解決問題:"新詞"問題。(0/0)本質是輸入樣本特征空間維數的提升,舊的模型無法提供有效分類信息。
方法:拉普拉斯平滑,約束條件
5、文本分類的事件模型