機器學習中的度量——統計上的距離


      機器學習是時下流行AI技術中一個很重要的方向,無論是有監督學習還是無監督學習都使用各種“度量”來得到不同樣本數據的差異度或者不同樣本數據的相似度。良好的“度量”可以顯著提高算法的分類或預測的准確率,本文中將介紹機器學習中各種“度量”,“度量”主要由兩種,分別為距離、相似度和相關系數,距離的研究主體一般是線性空間中點;而相似度研究主體是線性空間中向量;相關系數研究主體主要是分布數據。本文主要介紹統計上的距離。

1 馬哈拉諾比斯距離——向量到某個分布的距離

      馬哈拉諾比斯距離(Mahalanobis distance)是由印度統計學家馬哈拉諾比斯 (英語)提出的,表示數據的協方差距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯系(例如:一條關於身高的信息會帶來一條關於體重的信息,因為兩者是有關聯的)並且是尺度無關的,即獨立於測量尺度。對於一個均值為u=(u1,u2,…, un),協方差為Σ的分布,多變量向量x=(x1, x2, …, xn)到此分布的馬哈拉諾比斯距離為:

\[{D_M}\left( x \right) = \sqrt {{{\left( {x - u\,} \right)}^T}{\Sigma ^{ - 1}}\left( {x - u} \right)} \]

      馬哈拉諾比斯距離在某些情況下比歐幾里得距離更符合實際,如圖8所示:從二元正態分布中疊加100個隨機抽取的散點圖的等值線圖,這個二元正態分布是均值為(0,0),每個維度方差為1,且相關系數為0.5的二元正態分布。正態分布的質心點用藍色表示,三個興趣點分別為橙色方塊、紅色三角形和紫色圓圈。
計算三個興趣點和質心點的歐幾里得距離可知橙色方塊<紫色圓圈<紅色三角形,但從數據分布來看紅色三角形從統計分布意義上應該比紫色圓圈更靠近藍色質心點。因此歐幾里得距離在這里就失效了,如果我們用馬哈拉諾比斯距離計算三個興趣點和質心點的距離,可得橙色方塊的馬哈拉諾比斯距離為0.94,紅色三角形的馬哈拉諾比斯距離為0.04,紫色圓圈馬哈拉諾比斯距離<0.01,那么三個興趣點和藍色質心點距離排序應該是橙色方塊<紅色三角形<紫色圓圈。


圖1 馬氏距離的物理意義(圖源自《Integrative set enrichment testing for multiple omics platforms》

2 巴塔恰里雅距離——兩個分布的距離

      巴塔恰里雅距離 (Bhattacharyya distance)。在統計學中,巴塔恰里雅距離測量兩個概率分布的相似性。 它與巴塔恰里雅系數密切相關,巴塔恰里雅系數是兩個統計樣本或群體之間重疊量的度量。此距離以1930年代在印度統計研究所工作的統計學家Anil Kumar Bhattacharya的名字命名。對於數據集X上兩個概率分布p和q, 若數據集X對應的是離散分布它們的巴塔恰里雅距離定義為

\[{D_B}\left( {p,q} \right) = - \ln \left( {\sum\limits_{x \in X} {\sqrt {p\left( x \right)q\left( x \right)} } } \right) \]

      若數據集X對應的是連續分布,它們的巴塔恰里雅距離定義為

\[{D_B}\left( {p,q} \right) = - \ln \left( {\int {\sqrt {p\left( x \right)q\left( x \right)} dx} } \right) \]

      巴塔恰里雅距離可用於確定所考慮的兩個樣本的相對接近程度。 它用於測量分類中類別的可分性,並且被認為比巴塔恰里雅距離更可靠,因為當兩個類別的標准偏差相同時,馬哈拉諾比斯距離(見2.2章)是巴塔恰里雅距離距離的特定情況。因此,當兩個類具有相似的平均值但標准偏差不同時,馬哈拉諾比斯距離將趨向於零,而巴塔恰里雅距離則根據標准偏差之間的差異而增長。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM