一 基本概念
方差:(variance)是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有着重要意義。





協方差:標准差與方差是描述一維數據的,當存在多維數據時,我們通常需要知道每個維數的變量中間是否存在關聯。協方差就是衡量多維數據集中,變量之間相關性的統計量。比如說,一個人的身高與他的體重的關系,這就需要用協方差來衡量。如果兩個變量之間的協方差為正值,則這兩個變量之間存在正相關,若為負值,則為負相關。

二 馬氏距離
馬氏距離是由印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出的,表示數據的協方差距離。
協方差矩陣,當變量多了,超過兩個變量了。那么,就用協方差矩陣來衡量這么多變量之間的相關性。假設 X 是以 n 個隨機變數(其中的每個隨機變數是也是一個向量,當然是一個行向量)組成的列向量:


馬氏距離:它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯系(例如:一條關於身高的信息會帶來一條關於體重的信息,因為兩者是有關聯的)並且是尺度無關的(scale-invariant),即獨立於測量尺度。

將馬氏距離用於人臉識別時,x是預測出的數值,μ是期望(標簽)。人臉圖像大小為200*200時,那么x應該是200*200大小的,相應地,協方差矩陣也時一個大矩陣的,而Dm(x)則是標量。
而歐氏距離用於人臉識別,,x是預測出的額值,μ是期望(標簽)。人臉圖像大小為200*200時,那么X也是200*200的,但是輸出σ2也是標量。
knn中,使用馬氏距離比使用歐式距離好,為什么?
knn中,使用馬氏距離,則協方差矩陣是訓練集的協方差矩陣。d=(x-y)‘R^-1(x-y)
使用歐式距離d = (x-y)’(x-y)
不同之處在於馬氏距離,多乘一個R^-1,從而得到的距離必然與歐氏距離不同。而給x分類的關鍵局勢距離的大小,選擇合適的距離度量是大事。
但說到底,都是計算兩個距離,然后使用投票方式,選出x的標簽。
http://blog.csdn.net/zb1165048017/article/details/48579743