機器學習(一):生成學習算法Generative Learning algorithms


前段時間開始研究圖像檢索,進展困難,於是回歸基礎,捧起PRML一書,無奈看起來極其暈乎,參考AN的的講義才有點初步的認識。

1、概述:什么是生成學習算法

兩類學習算法:判別學習算法(discriminative learning algorithm)和生成學習算法(generative learning algorithm)。DLA通過建立輸入空間X與輸出標注{1, 0}間的映射關系學習得到p(y|x)。而GLA首先確定p(x|y)和p(y),由貝葉斯准則得到后驗分布。通過最大后驗准則進行預測,也即

2、GDA(Gaussian Discriminant Analysis model)高斯判決模型

模型:二類問題

=============>

其中,輸入特征x是連續隨機變量

訓練:

對四個參數分別求極值(閉式解):

GDA的優勢:由於有高斯分布的先驗信息,如果確實符合實際數據,則只需要少量的樣本就可以得到較好的模型。對比之下,logistic回歸模型有更好的魯棒性。

3、Naive Bayes

輸入特征X離散特征,並且有Naïve Bayes assumption,即xi在y的條件下獨立:

,n為詞表的維數。

訓練模型(聯合概率分布):給定訓練樣本

其中

閉式解:

預測:輸入一個n維特征值(如詞表),由貝葉斯准則得到后驗概率

由最大后驗准則得到分類結果。

4、Laplace平滑

解決問題:"新詞"問題。(0/0)本質是輸入樣本特征空間維數的提升,舊的模型無法提供有效分類信息。

方法:拉普拉斯平滑,約束條件

5、文本分類的事件模型


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM