數據點間的相似度-距離計算方法


在分類聚類算法,推薦系統中,常要用到兩個輸入變量(通常是特征向量的形式)距離的計算,即相似性度量.不同相似性度量對於算法的結果,有些時候,差異很大.因此,有必要根據輸入數據的特征,選擇一種合適的相似性度量方法.

X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T為兩個輸入向量,

 

1.歐幾里得距離(Euclidean distance)-EuclideanDistanceMeasure.

Euclidean Distance

相當於高維空間內向量說表示的點到點之間的距離。
由於特征向量的各分量的量綱不一致,通常需要先對各分量進行標准化,使其與單位無關,比如對身高(cm)和體重(kg)兩個單位不同的指標使用歐式距離可能使結果失效。
優點:簡單,應用廣泛(如果也算一個優點的話)
缺點:沒有考慮分量之間的相關性,體現單一特征的多個分量會干擾結果。


2.馬氏距離(Mahalanobis distance)-MahalanobisDistanceMeasure

C=E[(X-X平均)(Y-Y平均)]為該類輸入向量X的協方差矩陣.(T為轉置符號,E取平均時是樣本因此為n-1)

適用場合:
1)度量兩個服從同一分布並且其協方差矩陣為C的隨機變量X與Y的差異程度
2)度量X與某一類的均值向量的差異程度,判別樣本的歸屬。此時,Y為類均值向量.
優點
1)獨立於分量量綱
2)排除了樣本之間的相關性影響。
缺點:不同的特征不能差別對待,可能誇大弱特征。


3.閔可夫斯基距離(Minkowsk distance)-MinkowskiDistanceMeasure(默認p=3)

Minkowski Distance

可看成是歐氏距離的指數推廣,還沒有見到過很好的應用實例,但通常,推廣都是一種進步,特別的,

當p=1,也成做曼哈頓距離,也稱絕對距離,曼哈頓距離來源於城市區塊距離,是將多個維度上的距離進行求和后的結果。ManhattanDistanceMeasure.

Manhattan Distance

當q=∞時,稱為切比雪夫距離ChebyshevDistanceMeasure 

切比雪夫距離起源於國際象棋中國王的走法,我們知道國際象棋國王每次只能往周圍的8格中走一步,那么如果要從棋盤中A格(x1, y1)走到B格(x2, y2)最少需要走幾步?擴展到多維空間,其實切比雪夫距離就是當p趨向於無窮大時的明氏距離:

Chebyshev Distance


4.漢明距離(Hamming distance)-Mahout無

在信息論中,兩個等長字符串之間的漢明距離是兩個字符串對應位置的不同字符的個數。換句話說,它就是將一個字符串變換成另外一個字符串所需要替換的字符個數。

    例如:

    1011101 與 1001001 之間的漢明距離是 2。
    2143896 與 2233796 之間的漢明距離是 3。
    "toned" 與 "roses" 之間的漢明距離是 3。


5.Tanimoto系數(又稱廣義Jaccard系數)-TanimotoDistanceMeasure.

通常應用於X為布爾向量,即各分量只取0或1的時候。此時,表示的是X,Y的公共特征的占X,Y所占有的特征的比例。


5.Jaccard系數

Jaccard系數主要用於計算符號度量或布爾值度量的個體間的相似度,因為個體的特征屬性都是由符號度量或者布爾值標識,因此無法衡量差異具體值的大小,只能獲得“是否相同”這個結果,所以Jaccard系數只關心個體間共同具有的特征是否一致這個問題。如果比較X與Y的Jaccard相似系數,只比較xn和yn中相同的個數,公式如下:


Jaccard Coefficient


7.皮爾遜相關系數(Pearson correlation coefficient)-PearsonCorrelationSimilarity

即相關分析中的相關系數r,分別對X和Y基於自身總體標准化后計算空間向量的余弦夾角。公式如下:

Pearson Correlation Coefficient


8.余弦相似度(cosine similarity)-CosineDistanceMeasure

Cosine Similarity

就是兩個向量之間的夾角的余弦值。

余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小。相比距離度量,余弦相似度更加注重兩個向量在方向上的差異,而非距離或長度上。

優點:不受坐標軸旋轉,放大縮小的影響。

9.調整余弦相似度-Adjusted Cosine Similarity

雖然余弦相似度對個體間存在的偏見可以進行一定的修正,但是因為只能分辨個體在維之間的差異,沒法衡量每個維數值的差異,會導致這樣一個情況:比如用戶對內容評分,5分制,X和Y兩個用戶對兩個內容的評分分別為(1,2)和(4,5),使用余弦相似度得出的結果是0.98,兩者極為相似,但從評分上看X似乎不喜歡這2個內容,而Y比較喜歡,余弦相似度對數值的不敏感導致了結果的誤差,需要修正這種不合理性,就出現了調整余弦相似度,即所有維度上的數值都減去一個均值,比如X和Y的評分均值都是3,那么調整后為(-2,-1)和(1,2),再用余弦相似度計算,得到-0.8,相似度為負值並且差異不小,但顯然更加符合現實。

調整余弦相似度和余弦相似度,皮爾遜相關系數在推薦系統中應用較多。在基於項目的推薦中,GroupLens有篇論文結果表明調整余弦相似度性能要優於后兩者。

10.基於權重的距離計算方法:

WeightedDistanceMeasure、WeightedEuclideanDistanceMeasure 、 WeightedManhattanDistanceMeasure

歐氏距離與余弦相似度

借助三維坐標系來看下歐氏距離和余弦相似度的區別:

distance and similarity

根據歐氏距離和余弦相似度各自的計算方式和衡量特征,分別適用於不同的數據分析模型:歐氏距離能夠體現個體數值特征的絕對差異,所以更多的用於需要從維度的數值大小中體現差異的分析,如使用用戶行為指標分析用戶價值的相似度或差異;而余弦相似度更多的是從方向上區分差異,而對絕對的數值不敏感,更多的用於使用用戶對內容評分來區分用戶興趣的相似度和差異,同時修正了用戶間可能存在的度量標准不統一的問題(因為余弦相似度對絕對數值不敏感)。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM