metric learning -- 馬氏距離與歐氏距離


一 基本概念

 方差:(variance)是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有着重要意義。

在統計描述中,方差用來計算每一個變量(觀察值)與總體均數之間的差異。為避免出現離均差總和為零,離均差平方和受樣本含量的影響,統計學采用平均離均差平方和來描述變量的變異程度。總體方差計算公式:
為總體方差, 為變量, 為總體均值, 為總體例數。
 
記住,歐氏距離不是方差,歐氏距離是定義了兩個值之間的距離!!!!!!
同樣,馬氏距離也不是協方差!!!!!!!
 

協方差:標准差與方差是描述一維數據的,當存在多維數據時,我們通常需要知道每個維數的變量中間是否存在關聯。協方差就是衡量多維數據集中,變量之間相關性的統計量。比如說,一個人的身高與他的體重的關系,這就需要用協方差來衡量。如果兩個變量之間的協方差為正值,則這兩個變量之間存在正相關,若為負值,則為負相關。

概率論和統計學中,協方差用於衡量兩個變量的總體誤差。而 方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
期望值分別為 E[ X]與 E[ Y]的兩個實隨機變量 XY之間的協方差 Cov(X,Y)定義為:
從直觀上來看,協方差表示的是兩個變量總體誤差的期望。
如果兩個變量的變化趨勢一致,也就是說如果其中一個大於自身的期望值時另外一個也大於自身的期望值,那么兩個變量之間的協方差就是正值;如果兩個變量的變化趨勢相反,即其中一個變量大於自身的期望值時另外一個卻小於自身的期望值,那么兩個變量之間的協方差就是負值。
如果 XY是統計獨立的,那么二者之間的協方差就是0,因為兩個獨立的隨機變量滿足 E[ XY]= E[ X] E[ Y]。

 

二 馬氏距離

馬氏距離是由印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出的,表示數據的協方差距離。

協方差矩陣,當變量多了,超過兩個變量了。那么,就用協方差矩陣來衡量這么多變量之間的相關性。假設 X 是以 n 個隨機變數(其中的每個隨機變數是也是一個向量,當然是一個行向量)組成的列向量:

 

 

 

 馬氏距離:它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯系(例如:一條關於身高的信息會帶來一條關於體重的信息,因為兩者是有關聯的)並且是尺度無關的(scale-invariant),即獨立於測量尺度。

 

 

 將馬氏距離用於人臉識別時,x是預測出的數值,μ是期望(標簽)。人臉圖像大小為200*200時,那么x應該是200*200大小的,相應地,協方差矩陣也時一個大矩陣的,而Dm(x)則是標量。

而歐氏距離用於人臉識別,x是預測出的額值,μ是期望(標簽)。人臉圖像大小為200*200時,那么X也是200*200的,但是輸出σ2也是標量。

 

 

knn中,使用馬氏距離比使用歐式距離好,為什么?

knn中,使用馬氏距離,則協方差矩陣是訓練集的協方差矩陣。d=(x-y)‘R^-1(x-y)

使用歐式距離d = (x-y)’(x-y)

不同之處在於馬氏距離,多乘一個R^-1,從而得到的距離必然與歐氏距離不同。而給x分類的關鍵局勢距離的大小,選擇合適的距離度量是大事。

但說到底,都是計算兩個距離,然后使用投票方式,選出x的標簽。

http://blog.csdn.net/zb1165048017/article/details/48579743

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM