馬氏距離(Mahalanobis distance)


  馬氏距離(Mahalanobis distance)是由印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出的,表示數據的協方差距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯系(例如:一條關於身高的信息會帶來一條關於體重的信息,因為兩者是有關聯的)並且是尺度無關的(scale-invariant),即獨立於測量尺度。 對於一個均值為\mu = ( \mu_1, \mu_2, \mu_3, \dots , \mu_p )^T協方差矩陣為Σ的多變量矢量x = ( x_1, x_2, x_3, \dots, x_p )^T,其馬氏距離為

 

D_M(x) = \sqrt{(x - \mu)^T \Sigma^{-1} (x-\mu)}
馬氏距離也可以定義為兩個服從同一分布並且其協方差矩陣為Σ的隨機變量  \vec{x} \vec{y}的差異程度:
 d(\vec{x},\vec{y})=\sqrt{(\vec{x}-\vec{y})^T\Sigma^{-1} (\vec{x}-\vec{y})}

 

   如果協方差矩陣為單位矩陣,馬氏距離就簡化為歐式距離;如果協方差矩陣為對角陣,其也可稱為正規化的馬氏距離。

 

 d(\vec{x},\vec{y})=\sqrt{\sum_{i=1}^p  {(x_i - y_i)^2 \over \sigma_i^2}}

 

其中σi是xi的標准差

 

基礎知識

假設空間中兩點x,y,定義:

歐幾里得距離:

Mahalanobis距離:

不難發現,如果去掉馬氏距離中的協方差矩陣,就退化為歐氏距離。那么我們就需要探究這個多出來的因子究竟有什么含義。

 

第一個例子基礎知識

從下往上的一段50米長的坡道路,下面定一個A點,上面定B一個點。假設有兩種情況從A到B:

a)坐手扶電梯上去。

b)從手扶電梯旁邊的樓梯爬上去。

兩種情況下我們分別會產生兩種不同的主觀感受,坐電梯輕松愉快,感覺很快就從A到了B——“A與B真近”;走樓梯爬的氣喘吁吁很累,感覺走了好久才走到B——“A與B真遠”。

 

第二個例子

觀看落日之時,由於大氣的折射效應,太陽形狀產生形變並且視覺位置也比真實位置高

 

解釋

以上兩個例子看似和模式識別沒有關系,實際上都引入了“相對論”的問題。回到問題本身,歐式距離就好比一個參照值,它表征的是當所有類別等概率出現的情況下,類別之間的距離。此時決策面中心點的位置就是兩個類別中心的連線的中點。如圖1所示。而當類別先驗概率並不相等時,顯然,如果仍然用中垂線作為決策線是不合理的,將出現判別錯誤(綠色類的點被判別為紅色類),假設圖1中綠色類別的先驗概率變大,那么決策線將左移,如圖2黃線。左移的具體位置,就是通過馬氏距離來獲得的。馬氏距離中引入的協方差參數,表征的是點的稀密程度。

 

  從哲學上來說,用馬氏距離處理數據時,不再把數據單純的看作是冷冰冰的數字——那個引入的協方差,承認了客觀上的差異性,就好像是有了人類的感情傾向,使得模式識別更加“人性化”也更加“視覺直觀”。                     


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM