MLAPP——概率機器學習知識匯總


《機器學習》課程使用Kevin P. Murphy圖書《Machine Learning A Probabilistic Perspective》本英語教材,本書從一個獨特的數學概率論的角度解釋機器學習的所有問題,要較強的數學基礎。由於是英文教材。特開一個專題在此記錄自己的學習過程和各種問題。以供備忘和舉一反三之用。

在解說了機器學習的概述之后。第二章緊接着就開始講述概率論的知識,通過興許的學習會發現,這些概率論知識有部分在本科的概率論課程中學習過,可是有非常多其它部分是沒有在現有的本科階段甚至研究生階段也非常少涉及的知識點。在此做一個總結。

1、概率學派

頻率學派:概率代表的是對一個試驗反復運行N次。所關注的事件發生的頻率。這里要求的是須要進行反復試驗,這對於一般可反復運行的試驗是比較好的標識方式。這也成為實驗概率。

貝葉斯學派:概率代表的是人們對一個未知事件發生的不確定性的一種表征,這里不要求對這個事件進行反復試驗。同一時候對於不論什么未知的事件,都能夠用一個概率來表征人們對它的認識。

通過上述比較能夠發現,對於某些不能反復試驗的事件(比方生成燈管的工廠生成的燈管的平均使用壽命,進行反復實驗是不現實的)。使用貝葉斯概率的解釋更加合理。因此在整個學習中都以貝葉斯學派為准。

2、基本知識

概率:事件空間Ω到實數域R的映射,對於每一個事件A,都有一個實數p(A)與之相應,同一時候滿足:(1)非負性。p(A)>=0。(2)規范性,p(Ω)=1;(3)可列可加性:p(A1+A2+…An) = p(A1)+p(A2)+…p(An)當中A1、A2…An都是互補相容的事件。

基本概率公式:


全概率公式和貝葉斯公式:


通用的貝葉斯分類器:

θ為模型的參數)

3、離散型分布

(1)二項分布Binomial

K為每次試驗可能出現的結果,n為進行試驗的次數。貝努利試驗就是K={0。1}且n=1的試驗,對於n(n>1)的n重貝努利實驗就是二項分布,分布函數例如以下:


mean=θ,variance=nθ(1-θ)。

二項分布描寫敘述的典型試驗就是拋硬幣,每次出現正面或者反面兩種結果。

這在機器學習的分類算法中用於描寫敘述二值的特征。也就是每一個數據的特征的取值是兩個狀態(通常是0和1),用來表征當前數據是否有這個特征,因此能夠使用二項分布來描寫敘述當前特征的分布。

(2)多項分布Multinormial

當每次試驗出現的結果可能有K(K>2)種時,也就是一個特征的不不過表征是否出現,而是須要用一個詳細數值來表征該特征的影響大小。此時能夠用多項分布進行描寫敘述。


此處。當K=2時也就是兩種狀態,能夠看出多項分布就退化到了二項分布,能夠看出x1=k,x2=n-k,x1+x2=n條件滿足。

當中,當n=1時。也就是僅僅進行一次試驗,此時的分布稱為多維貝努利分布,由於每次的可能狀態有K(K>2)個,也成為離散分布(discrete distribution)或者分類分布(categorical distribution)。記為Cat(x|θ):


(3)泊松分布Poisson

變量X={0,1,2.....},λ>0,分布例如以下:


泊松分布能夠用來模擬以時間序列發送的事件,具有無記憶性。

4、連續型分布

(1)正態分布Gaussian(Normal)


mean=u。mode=u,variance=σ^2。在統計學中應用很廣泛,首先兩個參數很好理解。各自是均值和標准差。同一時候,中心極限定理得到相互獨立的隨機變量的和的分布近似為高斯分布,能夠用來模擬噪聲數據;第三。高斯分布使用了最小的如果也就是擁有最大熵。第四,數學形式相對簡單,很利於實現。

(2)Student t分布


mean=u。mode=u,variance=νσ^2/(ν-2)。ν>0為自由度,方差在ν>2時有定義。均值在ν>1時有定義。此分布形式上與高斯分布類似,彌補了高斯分布的一個不足,就是高斯分布對離群的數據非常敏感,可是Student t分布更魯棒

一般設置ν=4,在大多數實際問題中都有非常好的性能,當ν大於等於5時將會是去魯棒性,同一時候會迅速收斂到高斯分布。


特別的。當ν=1時。被稱為柯西分布(Cauchy)。

(3)拉普拉斯分布Laplace


mean=u,mode=u,variance=2b^2。

也被稱為雙側指數分布,引出了絕對值的指數次方,因此在x=u處不可導。b(b>0)為縮放因子,用來調節數據的分散程度。拉普拉斯分布對離群數據的魯棒性更好。同一時候,在x=u處給予了比高斯分布更大的概率密度,這個性質能夠用來修正模型中稀疏的數據。

(4)Gamma分布


mean=a / b,mode=(a-1) / b,variance=a / b^2,mean在a>1時有定義。variance在a>2時有定義。當中變量T的范圍為T>0。a>0稱為形狀參數,b>0稱為速率參數。

  • Exponential分布:a=1,b=λ時,Expon(x|λ)=Ga(x|1,λ),這個分布描寫敘述了連續的泊松過程,與離散型的泊松分布共軛。

  • ErLang分布:ErLang(x|λ)=Ga(x|2,λ)
  • Chi-Squared分布(卡方分布):ChiSq(x|v)=Ga(x|v/2,1/2),這是N個高斯分布的隨機變量的平方和所服從的分布。
當使用1/x取代Gamma分布中的變量時。得到的是反Gamma分布。即:

mean=b / (a-1)。mode=b / (a+1),variance=b^2 / (a-1)^2(a-2),當中mean在a>1時定義。variance在a>2時定義。

(5)Beta分布


定義在[0,1]區間上。要求a>0,b>0,當a=b=1時就是[0,1]上的均勻分布。mean=a / (a+b), mode=(a-1) / (a+b-2), variance = ab / (a+b)^2(a+b+1)。這個分布與離散的二項分布是共軛的。在朴素貝葉斯分類應用中,當似然分布為二項分布時,選擇Beta分布為共軛先驗分布,則后驗分布也為Beta分布。很便於實際操作和計算。

(6)Pareto分布


mean=km/(k-1)(k>1)。mode=m。variance=mk^2 / (k-1)^2(k-2)(k>2),這個分布相應有一個Zipf's 定律,用來描寫敘述單詞的排名和其出現的頻率的關系。x必須比一個常數m要大,可是不能超過k,當k為無窮大時,這個分布會趨於δ(x-m)。上述分布在信息檢索中對索引構建中的詞頻預計非常有效。

(7)狄利克雷分布Dirichlet


mean(Xk)=ak/a0, mode(Xk) = (ak - 1) / (a0 - K), variance(Xk) = ak(a0-ak) / a0^2(a0+1)。這是beta分布在多維條件下的分布。相應的參數和變量都是一個向量,這個分布與離散的多項分布時共軛的,在朴素貝葉斯分類應用中,似然使用多項分布時。選擇Dirichlet分布為先驗分布,得到后驗分布也為Dirichlet分布。

以上對機器學習中使用做一個概率分布匯總,也許在時間的學習筆記和復習。

版權聲明:本文博主原創文章,博客,未經同意不得轉載。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM