概率論的一些基礎知識
條件概率
\(P(B|A) = \frac{1}{3}\) 表示的意思為當A發生的時候,B發生的概率
有公式
\[P(B|A) = \frac{P(AB)}{P(A)} \]
\[P(AB) = P(B|A)*P(A)=P(A|B)*P(B) \]
\[P(A|B) = \frac{P(B|A)*P(A)}{P(B)} \]
全概率公式
\(B_1,B_2,B_3\)……\(B_n\) 為樣本空間的S的一個划分則可以得到
\(P(A) = P(B_1)P(A|B_1) + P(B_2)P(A|B_2)+…… P(B_n)P(A|B_n)= \sum_{i=0}^{n} P(B_i)P(A|B_i)\)
貝葉斯公式
\[P(B_i|A) = \frac{P(A|B_i)*P(B_i)}{\sum_{i=0}^{n}$P(A|B_i)} \]
關於貝葉斯公式的幾個理解和解釋
\[P(A|B) = \frac{P(B|A)*P(A)}{P(B)} \]
其中P(A)的概率為先驗概率,這個在機器學習中通常指的是某個分類出現的概率>
P(B|A)為條件概率,就是在A類中B發生的概率
P(A|B)為后驗概率,具體指的含義為:當B事件發生了,這個時候來自A分類的概率是多少。
極大似然估計 maximum-likelihood
原理
利用已知的樣本結構,去反推最大可能導致這樣結果的參數值。極大似然估計是建立在極大似然原理的基礎上的一個統計方法,是概率論在統計學中的應用。極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。通過若干次試驗,觀察其結果,利用試驗結果得到某個參數值能夠使樣本出現的概率為最大,則稱為極大似然估計。
由於樣本集中的樣本都是獨立同分布,可以只考慮一類樣本集D,來估計參數向量θ。記已知的樣本集為:$$D={ x_1,x_2,x_3,……x_n }$$
\[l(\theta)=p(D|\theta)=p(x_1,x_2,x_3……x_N| \theta )=\prod_{i=1}^{n}P(x_i|\theta)$$ 就是D的似然函數 ## ML 中如何求極大似然函數 求使得出現該組樣本的概率最大的θ值。 $$ \hat{\theta}=argmax l(\theta)=argmax\prod_{i=1}^{N}P(x_i|\theta)\]
簡單的理解,我們就是在已知是\(\theta\) 發生的情況下讓D序列出現的概率最大。而連乘不太好計算。我們可以做一下改變。
\[\hat{\theta}=argmax l(\theta)=argmax\prod_{i=1}^{N}P(x_i|\theta) = argmax (ln(\prod_{i=1}^{N}P(x_i|\theta)))= argmax \sum_{i=1}^{N}ln(P(x_i|\theta)) \]
