馬氏距離(Mahalanobis distance)是由印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出的,表示數據的協方差距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯系(例如:一條關於身高的信息會帶來一條關於體重的信息,因為兩者是有關聯的)並且是尺度無關的(scale-invariant),即獨立於測量尺度。 對於一個均值為,協方差矩陣為Σ的多變量矢量
,其馬氏距離為
-
-
馬氏距離也可以定義為兩個服從同一分布並且其協方差矩陣為Σ的隨機變量
與
的差異程度:
-
如果協方差矩陣為單位矩陣,馬氏距離就簡化為歐式距離;如果協方差矩陣為對角陣,其也可稱為正規化的馬氏距離。
其中σi是xi的標准差。
基礎知識:
假設空間中兩點x,y,定義:
歐幾里得距離:
Mahalanobis距離:
不難發現,如果去掉馬氏距離中的協方差矩陣,就退化為歐氏距離。那么我們就需要探究這個多出來的因子究竟有什么含義。
第一個例子基礎知識
從下往上的一段50米長的坡道路,下面定一個A點,上面定B一個點。假設有兩種情況從A到B:
a)坐手扶電梯上去。
b)從手扶電梯旁邊的樓梯爬上去。
兩種情況下我們分別會產生兩種不同的主觀感受,坐電梯輕松愉快,感覺很快就從A到了B——“A與B真近”;走樓梯爬的氣喘吁吁很累,感覺走了好久才走到B——“A與B真遠”。
第二個例子
觀看落日之時,由於大氣的折射效應,太陽形狀產生形變並且視覺位置也比真實位置高。
解釋
以上兩個例子看似和模式識別沒有關系,實際上都引入了“相對論”的問題。回到問題本身,歐式距離就好比一個參照值,它表征的是當所有類別等概率出現的情況下,類別之間的距離。此時決策面中心點的位置就是兩個類別中心的連線的中點。如圖1所示。而當類別先驗概率並不相等時,顯然,如果仍然用中垂線作為決策線是不合理的,將出現判別錯誤(綠色類的點被判別為紅色類),假設圖1中綠色類別的先驗概率變大,那么決策線將左移,如圖2黃線。左移的具體位置,就是通過馬氏距離來獲得的。馬氏距離中引入的協方差參數,表征的是點的稀密程度。
從哲學上來說,用馬氏距離處理數據時,不再把數據單純的看作是冷冰冰的數字——那個引入的協方差,承認了客觀上的差異性,就好像是有了人類的感情傾向,使得模式識別更加“人性化”也更加“視覺直觀”。