在介紹馬氏距離之前先看下幾個概念:
1 方差:標准差的平方,反映了數據集中數據的離散程度
2 協方差:標准差與方差是衡量一維數據的,當存在多維數據時,要知道每個維度的變量之間是否存在關聯,就需使用協方差.協方差是衡量多維數據中,變量之間的相關性.若兩個變量之間的協方差為正值,則兩個變量間存在正相關,若為負值,則為負相關.
3 協方差矩陣:當變量多了,超過兩個了,我們就是用協方差矩陣衡量多變量之間的相關性.
什么是馬氏距離呢?
馬氏距離與歐式距離不同的是,它考慮到各種特性之間的聯系,並且與尺度無關.

當協方差矩陣是單位陣的時候,馬氏距離簡化為歐氏距離,若協方差矩陣是對角陣時 ,簡化為標准化的歐式距離.
馬氏距離特性:
1.量綱無關,排除變量之間的相關性的干擾;
2.馬氏距離的計算是建立在總體樣本的基礎上的,如果拿同樣的兩個樣本,放入兩個不同的總體中,最后計算得出的兩個樣本間的馬氏距離通常是不相同的,除非這兩個總體的協方差矩陣碰巧相同;
3 .計算馬氏距離過程中,要求總體樣本數大於樣本的維數,否則得到的總體樣本協方差矩陣逆矩陣不存在,這種情況下,用歐式距離計算即可。
4.還有一種情況,滿足了條件總體樣本數大於樣本的維數,但是協方差矩陣的逆矩陣仍然不存在,比如三個樣本點(3,4),(5,6),(7,8),這種情況是因為這三個樣本在其所處的二維空間平面內共線。這種情況下,也采用歐式距離計算。
馬氏距離與歐式距離:


