最大似然估計
似然與概率
在統計學中,似然函數(likelihood function,通常簡寫為likelihood,似然)和概率(Probability)是兩個不同的概念。概率是在特定環境下某件事情發生的可能性,也就是結果沒有產生之前依據環境所對應的參數來預測某件事情發生的可能性,比如拋硬幣,拋之前我們不知道最后是哪一面朝上,但是根據硬幣的性質我們可以推測任何一面朝上的可能性均為50%,這個概率只有在拋硬幣之前才是有意義的,拋完硬幣后的結果便是確定的;而似然剛好相反,是在確定的結果下去推測產生這個結果的可能環境(參數),還是拋硬幣的例子,假設我們隨機拋擲一枚硬幣1,000次,結果500次人頭朝上,500次數字朝上(實際情況一般不會這么理想,這里只是舉個例子),我們很容易判斷這是一枚標准的硬幣,兩面朝上的概率均為50%,這個過程就是我們根據結果來判斷這個事情本身的性質(參數),也就是似然。
結果和參數相互對應的時候,似然和概率在數值上是相等的,如果用 θ 表示環境對應的參數,x 表示結果,那么概率可以表示為:
P(x | θ)
是條件概率的表示方法,θ是前置條件,理解為在θ 的前提下,事件 x 發生的概率,相對應的似然可以表示為:
L(θ | x)
理解為已知結果為 x ,參數為θ (似然函數里θ 是變量,這里說的參數是相對與概率而言的)對應的概率。
最大似然估計
似然函數的最大值意味着什么?讓我們回到概率和似然的定義,概率描述的是在一定條件下某個事件發生的可能性,概率越大說明這件事情越可能會發生;而似然描述的是結果已知的情況下,該事件在不同條件下發生的可能性,似然函數的值越大說明該事件在對應的條件下發生的可能性越大。
最大值似然估計量和極大值似然估計量的區別
最大似然估計量是樣本的函數,若把樣本的觀測值 x1,..., xn 帶入到統計量的表達式中,得出的就是最大似然估計值。 前者是個隨機變量,后者是一個確定的值,沒有隨機性。
n階中心矩
設X是隨機變量,則稱
為X的k階中心距。
當中心距中的E(X)為0時,此時為k階原點矩,即原點矩是中心距的特殊情況。
一階原點矩就是數學期望,二階中心距就是方差,在實際中常用低階矩,高於四階矩極少使用。
協方差(矩陣)
協方差用於描述兩個變量的相關性
Cov(X, Y) = E[ [X−E(X)][Y−E(Y)] ]
相關系數其中,D(X)為方差,E(X)為期望。
ρXY=0, 兩個變量不相關
協方差矩陣
先從二維隨機變量講起,二維隨機變量(X1,X2)有四個二階中心矩(設它們都存在),分別記為:
c11 = E{ [X1 - E(X1)]2 }
c12 = E{ [X1 - E(X1)][X2 - E(X2)] }
c21 = E{ [X2 - E(X2)][X1 - E(X1)] }
c22 = E{ [X2 - E(X2)]2 }
將它們排列成矩陣的形式
擴展到多維:
設n維隨機變量(X1, X2, ..., Xn)的二階混合中心矩 cij = E{ [Xi - E(Xi)][Xj - E(Xj)] },i,j=1,2,...,n 都存在,則稱矩陣
為n維隨機變量(X1, X2, ..., Xn)的協方差矩陣。由於cij = cji(i≠j;ii,j=1,2,...,n),因而上述矩陣是一個對稱矩陣。
(多元)高斯分布
正態分布(normal distribution)又名高斯分布(Gaussian distribution),是一個非常常見的連續概率分布。正態分布在統計學上十分重要,經常用在自然和社會科學來代表一個不明的隨機變量。
則其概率密度函數的一般形式為
正態分布的數學期望值或期望值等於位置參數,決定了分布的位置;其方差
的開平方或標准差
等於尺度參數,決定了分布的幅度。
正態分布的概率密度函數曲線呈鍾形,因此人們又經常稱之為鍾形曲線(類似於寺廟里的大鍾,因此得名)。我們通常所說的標准正態分布N(0, 1)是位置參數,尺度參數
的正態分布。
標准正態分布標准化到一般情形,x 軸方向做 σ 倍延拓的同時, y 軸應該壓縮 σ 倍(乘以 1/σ)。
概率密度函數
高斯分布一些重要的量:
1. 密度函數關於平均值對稱;
2. 平均值與它的眾數(statistical mode)以及中位數(median)相等;
3. 函數曲線下68.268949%的面積在平均值左右的一個標准差范圍內;
4. 95.449974%的面積在平均值左右兩個標准差2σ的范圍內;
5. 99.730020%的面積在平均值左右三個標准差3σ的范圍。
其中第3-5條稱為“68-95-99.7法則” 或 “經驗法則”。
概率分布函數
正態分布的分布函數沒有解析表達式,它的值可以通過數值積分、泰勒級數或者漸進序列近似得到。
中心極限定理
正態分布有一個很重要的性質:在特定條件下,大量統計獨立的隨機變量的和的分布趨於正態分布,這就是中心極限定理。中心極限定理的重要意義在於,依據這一定理的結論,其它概率分布能夠用正態分布作為近似。
高斯分布線性組合的重要性質
為什么數據科學家都喜歡高斯分布
自然科學和社會科學中有極其大量的過程天然遵循高斯分布。即使當它們並不遵循高斯分布的時候,高斯分布也往往提供最佳的逼近。數學上的原因便是中心極限定理。中心極限定理表明,滿足一定條件時,大量相互獨立的隨機變量經適當標准化后,收斂於高斯分布。這一定理意味着專門為高斯模型開發的大量科學方法和統計學方法同樣適用於可能牽涉其他類型分布的廣闊領域內的問題。
另外,高斯分布在一些轉換后仍然是高斯分布:
高斯函數經傅里葉變換后,所得仍為高斯函數。
兩個高斯函數的積仍然是高斯函數。
兩個高斯函數的卷積仍然是高斯函數。
兩個符合高斯分布的獨立隨機變量之和仍然符合高斯分布。
對每個高斯模型逼近而言,可能存在一個提供更好的逼近的復雜多參數分布。然而,我們仍然選擇高斯模型,因為它大大簡化了數學!
如何檢查你的數據是不是高斯分布
· 看直方圖! 是不是看起來像鍾形?
· 計算描述性匯總度量 - 平均值,中位數和模式是否相似?(此處不大明白)
· 2/3的觀察是否位於平均值的±1*標准差內? 95%的觀察值是否在平均值的±2*標准差范圍內?
特征選擇
因為我們建立模型的基礎是假設特診滿足高斯分布,那么要是特征不符合高斯分布呢?答案當然是整成高斯分布啊!
我們一開始拿到的特征的分布可能是這樣的:
我們可以通過對數操作或者其他操作將他轉化為高斯分布,例如,上面的特征經對數操作后形成的分布就非常接近於高斯分布:
多元高斯分布
獨立多元正態分布
先假設n個變量互不相關,且服從正態分布(維度不相關多元正態分布),各個維度的均值
, 方差
根據聯合概率密度公式:
這樣多元正態分布又可以寫成一元那種漂亮的形式了(注意一元與多元的差別):
引入協方差矩陣表示σz代入標准化公式
詳細解釋說明見:The Multivariate normal distribution,下同(相關多元高斯分布)
相關多元高斯分布
我們討論多元正態分布的前提是多元變量之間是相互獨立的,實際上,有很多應用場合,變量與變量之間是有關聯的。以二元正態分布為例:
向輸入平面作投影后的平面圖:
以現在的坐標系來看,X1,X2是相關的,但是如果我們換一個角度,它們就是互不相關的了:
上述過程被稱為去相關性,更專業一點叫做歸化。經過一系列規歸化,我們把新的期望、協方差、協方差的逆帶入標准化公式:
總結一下我們做了什么:
Ⅰ, 我們先定義了新的坐標系,通過矩陣 UT 將元素映射到新的坐標系,目的是去相關性
Ⅱ, 在新的坐標下,我們定義了新的期望、協方差、協方差的逆,他們都可以通過 U 與 UT計算出來,當然我們不用計算
Ⅲ, 套用標准公式,將新的期望、協方差的逆、協方差的行列式代入,發現最后的結果與U、UT無關
示例0 異常檢測算法采用獨立多元高斯分布無法解決的問題由相關多元高斯分布進行解決,介紹熱力圖對投影后的圖像進行不同方向的拉伸。
獨立多元高斯分布模型只是相關多元高斯分布模型的一個約束,它將相關多元高斯分布的等高線約束到了同軸分布(概率密度的等高線是沿着軸向的)!
https://blog.csdn.net/u014182497/article/details/82252456
https://zhidao.baidu.com/question/717195483776826085.html
https://blog.csdn.net/lql0716/article/details/68267829
https://blog.csdn.net/qq_23869697/article/details/80610361
https://blog.csdn.net/Flyingzhan/article/details/82502713
https://blog.csdn.net/hhaowang/article/details/83898881#commentBox
https://baijiahao.baidu.com/s?id=1621087027738177317&wfr=spider&for=pc
http://www.360doc.com/content/18/0608/06/31429017_760580081.shtml