【轉】關於Mahalanobis距離的筆記


Mahalanobis距離是用來度量一個點P和一個分布D之間的距離,它是衡量點P與分布D的均值之間存在多少個標准差的一個多維泛化版本。
如果P就位於分布D的均值處,則該距離為0;該距離隨着P的偏離均值開始逐步增大。

由印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出的,表示數據的協方差距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯系(例如:一條關於身高的信息會帶來一條關於體重的信息,因為兩者是有關聯的)並且是尺度無關的(scale-invariant),即獨立於測量尺度。 對於一個均值為\mu = ( \mu_1, \mu_2, \mu_3, \dots , \mu_p )^T協方差矩陣\Sigma的多變量向量x = ( x_1, x_2, x_3, \dots, x_p )^T,其馬氏距離為

D_M(x) = \sqrt{(x - \mu)^T \Sigma^{-1} (x-\mu)}

馬氏距離也可以定義為兩個服從同一分布並且其協方差矩陣為\Sigma的隨機變量 \vec{x} \vec{y}的差異程度:

 d(\vec{x},\vec{y})=\sqrt{(\vec{x}-\vec{y})^T\Sigma^{-1} (\vec{x}-\vec{y})}

如果協方差矩陣為單位矩陣,馬氏距離就簡化為歐氏距離;如果協方差矩陣為對角陣,其也可稱為正規化的歐氏距離

 d(\vec{x},\vec{y})=\sqrt{\sum_{i=1}^p  {(x_i - y_i)^2 \over \sigma_i^2}}

其中\sigma_ix_i標准差


 

mahalanobis距離是基於樣本分布的一種距離。物理意義就是在規范化的主成分空間中的歐氏距離。所謂規范化的主成分空間就是利用主成分分析對一些數據進行主成分分解。再對所有主成分分解軸做歸一化,形成新的坐標軸。由這些坐標軸張成的空間就是規范化的主成分空間。
換句話說,主成分分析就是把橢球分布的樣本改變到另一個空間里,使其成為球狀分布。而mahalanobis距離就是在樣本呈球狀分布的空間里面所求得的Euclidean距離。
當然,上面的解釋只是對橢球分布而言,對一般分布,只能消除分布的二階相關性,而不能消除高階相關性。










 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM