貝葉斯在機器學習中的應用(一)
一:前提知識
具備大學概率論基礎知識
熟知概率論相關公式,並知曉其本質含義/或實質意義
二:入門介紹
先驗概率:即正向求解概率。 如:四個紅球,兩個白球,從中任取一個為白球的概率
后驗概率:即逆向求解概率。如:紅球的次品率為30%,白球的次品率為10%,現在袋子中的白球與紅球的數量比是3:1。抽取一個球為次品,問這個次品為紅球的概率
這里就用到了貝葉斯公式。其中在使用貝葉斯公式,一般離不開全概率公式
三:與機器學習的聯系
分類學習。通常的分類器是有監督的學習,即有由大量樣本組成的訓練集和每個樣本對應的標簽(類別信息)。
在大量的數據之下,容易根據樣本的特征的概率值來判斷該樣本屬於哪一類。
例如:訓練集: 有10000個人,其中人的屬性有兩個,x1為年齡,x2為身高。標簽即分類信息有:小學,中學
訓練的過程是: 求類 小學 的情況下 各個年齡和身高出現的概率
求類 中學 的情況下 各個年齡和身高出現的概率
此時訓練已經結束
預測過程: 給定一個樣本:一個人 年齡已知,身高已知;預測其是小學生還是高中生
那么只需要計算他是小學生的概率大還是高中生的概率大即可
計算方法:在整個訓練集中小學生的概率*在小學生的情況下該樣本身高值在訓練集中的概率*在小學生的情況下該樣本年齡值在訓練集中的概率
同理計算中學生,再比較兩個值的大小
四:詳細公式介紹及原理說明見下章