多元高斯分布(Multivariate Gaussian Distribution) - 碼上歡樂

相關內容簡體繁體

多元高斯分布(Multivariate Gaussian Distribution)

本文轉載自查看原文 2019-01-30 16:32 1600 Math/ Statistical learning method

from：https://www.jianshu.com/p/d6c8ca915f69

還是對計算機的監測，我們發現CPU負載和占用內存之間，存在正相關關系。

CPU負負載增加的時候占用內存也會增加：

假如我們有一個數據，x1的值是在 0.4 和 0.6 之間，x2的值是在 1.6 和 1.8 之間，就是下圖中的綠點：

它明顯偏離了正常的范圍，所以是一個異常的數據。

但如果單獨從CPU負載和占用內存的角度來看，該數據卻是混雜正常數據之中，處於正常的范圍：

這個異常的數據會被認為是正常的，因為我們得到模型的輪廓圖是這樣的：

為了改良這樣的情況，我們需要把特征之間的相關性考慮進來。

第一種方式我們在上一篇筆記中有提到，就是增加一個新的特征 x3，把兩者的相關性考慮進去：

另一種方式：多元高斯分布（Multivariate Gaussian Distribution），自動捕捉特征之間的相關性，公式如下：

其中 μ 為特征的均值，是一個 n*1 的向量：

Σ 為特征的協方差，是一個 n*n 的矩陣：

假設我們的均值與協方差的初始值和對應的三維圖形與輪廓圖如下：

μ 決定的是中心的位置，改變 μ 的值意味着中心的移動：

協方差矩陣控制的是對概率密度的敏感度。

例如某個方向的協方差越小，那么隨着在該方向上的水平位移，高度的變化就越大。

首先我們看看各個特征不相關（正交）的情況：

我們再看一下考慮特征相關性的情況，下面兩個圖片分別到正相關和負相關的變化：

你看之前的模型 p(x) 會把異常數據認定為正常，而到了多元高斯分布的模型中，就得到了很好的解決：

之前的模型：

其實是多元高斯分布的一種特例，就是協方差矩陣 Σ 為對角矩陣的情況：

進行一個簡單的推演你就明白了。

假設我們只有兩個特征：

那么均值和協方差矩陣分別是：

把它們代入到多元高斯分布的公式中，可以推演得到：

二元高斯分布的密度函數，其實就是兩個獨立的高斯分部密度的乘積，特征更多的情況也是類似的。

需要注意的是，這里的推導不是證明的過程，僅僅是為了讓你更好地理解兩者的關系。

我們知道有這么兩種方式可以處理特征之間的相關關系，那么應該如何選擇呢？

這個需要根據具體的現實條件進行選擇。

下表是兩者的對比：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 多元高斯分布（The Multivariate normal distribution）正態分布（Normal distribution）又名高斯分布（Gaussian distribution）正態分布（Normal distribution）又名高斯分布（Gaussian distribution）【翻譯】擬合與高斯分布 [Curve fitting and the Gaussian distribution] 多元高斯分布一起啃PRML - 1.2.4 The Gaussian distribution 高斯分布正態分布高斯分布（Gaussian Distribution）的概率密度函數（probability density function）【轉】二維高斯分布（Two-dimensional Gaussian distribution）的參數分析多元/多維高斯/正態分布概率密度函數推導 (Derivation of the Multivariate/Multidimensional Normal/Gaussian Density) 多元高斯分布完全解析

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM