1、余弦距離:
描述:余弦夾角也可以叫余弦相似度。幾何中夾角余弦可用來衡量兩個向量方向的差異,機 器學習中借用這一概念來衡量向量樣本之間的差異。余弦的取值范圍[-1,1],求的兩個向量 的夾角並得出夾角對應的余弦值,次余弦值就可以用來表征這兩個向量的相似性。夾角越小, 趨近於零度,余弦值越接近於 1,方向也就更吻合。反之,夾角越大,余弦值越接近於-1.特 別的:余弦值為 0 兩向量垂直。可以看出,余弦相似度只與方向有關。
公式:
在二維空間中向量 A(x1,y1),B(x2,y2)的夾角余弦公式為:
程序實現:
1 import numpy as np 2 from scipy.spatial.distance import pdist 3 from numpy import * 4 5 # 余弦距離 6 def cosDistance(): 7 vec1 = [1,2,3,4] 8 vec2 = [5,6,7,8] 9 10 print("vec1 = ",vec1) 11 print("vec2 = ",vec2) 12 13 # 方法一:根據公式 14 dist1 = np.dot(vec1,vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2)) 15 print ("余弦測試結果 dist1 = "+str(dist1)) 16 17 #方法二:根據scipy庫求解 18 Vec = np.vstack([vec1,vec2]) 19 dist2 = 1 - pdist(Vec,'cosine') 20 print("余弦測試結果 dist2 = "+str(dist2))
2、歐氏距離:
描述:歐里幾得距離或歐幾里得度量是空間兩個點的直線距離。較早的文獻稱畢達哥拉斯度 量。
公式:
推倒到n維向量:
程序實現:
1 import numpy as np 2 from scipy.spatial.distance import pdist 3 from numpy import * 4 # 歐幾里得距離 5 def oljdDistance(): 6 vec1 = np.mat([1,2,3,4]) 7 vec2 = np.mat([5,6,7,8]) 8 9 print("vec1 = ",vec1) 10 print("vec2 = ",vec2) 11 12 #方法一 公式求解 13 dist1 = np.sqrt(np.sum(np.square(vec1 - vec2))) 14 print("歐氏距離測試的結果為 dist1 = "+str(dist1)) 15 16 #方法二 根據scipy庫求解 17 Vec = np.vstack([vec1,vec2]) 18 dist2 = pdist(Vec) 19 print("歐氏距離測試的結果為 dist2 = "+str(dist2)) 20 21 #方法三 根據公式求解 22 dist3 = sqrt((vec1 - vec2) * (vec1 - vec2).T) 23 print("歐氏距離測試的結果為 dist3 = "+str(dist3))
3、曼哈頓距離:
描述:出租車幾何或曼哈頓距離(Manhattan Distance)是由十九世紀的赫爾曼·閔可夫斯基 所創詞匯 ,是種使用在幾何度量空間的幾何學用語,用以標明兩個點在標准坐標系上的絕 對軸距總和。
紅色:曼哈頓距離
綠色:歐氏距離
公式:
推廣到 n 維向量
程序實現:
1 import numpy as np 2 from scipy.spatial.distance import pdist 3 from numpy import * 4 # 曼哈頓距離 5 def citybolckDistance(): 6 vec1 = np.mat([1,2,3,4]) 7 vec2 = np.mat([5,6,7,8]) 8 9 print("vec1 = ",vec1) 10 print("vec2 = ",vec2) 11 12 #方法一 根據公式求解 13 dist1 = np.sum(np.abs(vec1 - vec2)) 14 print("曼哈頓距離測試的結果為 dist1 = "+str(dist1)) 15 16 #方法二 根據scipy庫求解 17 Vec = np.vstack([vec1,vec2]) 18 dist2 = pdist(Vec,'cityblock') 19 print("曼哈頓距離測試的結果為 dist1 = "+str(dist2)) 20 21 # 方法三 根據公式 22 dist3 = sum(abs(vec1 - vec2)) 23 print("曼哈頓距離測試的結果為 dist1 = "+str(dist3))
4、明可夫斯基距離:
描述:明氏距離又叫做明可夫斯基距離,是歐氏空間中的一種測度,被看做歐氏距離和曼哈 頓距離的一種推廣。
公式化: 兩個 n 維向量 a(x1,x2,…,xn) 與 b(y1y2,…,yn) 之間的曼哈頓距離
也可寫成:
根據變參數的不同,明可夫斯基距離可以表示一類的距離:
1. 當 p = 1 時,就是曼哈頓距離
2. 當 p = 2 時,就是歐氏距離
3. 當 p ->∞時,就是切比雪夫距
程序實現:
import numpy as np from scipy.spatial.distance import pdist from numpy import * # 明可夫斯基距離 def minkowskiDistance(): vec1 = np.mat([1,2,3,4]) vec2 = np.mat([5,6,7,8]) print("vec1 = ",vec1) print("vec2 = ",vec2) #方法一 用scipy庫求解 Vec = np.vstack([vec1,vec2]) dist2 = pdist(Vec,'minkowski',p = 1) print("p = 1時scipy庫求解曼哈頓距離,結果是:\t"+str(dist2)) #方法二 根據公式求解 dist1 = np.sqrt(np.sum(np.square(vec1 - vec2))) print("平= 2 求解歐氏距離,結果是:\t"+str(dist1)) #方法三 根據公式求解 p = 1 dist3 = sum(abs(vec1 - vec2)) print("p = 1 公式求解曼哈頓距離,結果是:\t"+str(dist3)) #方法四 根據公式求解 p = 2 dist4 = sqrt((vec1 - vec2) * (vec1 - vec2).T) print("p = 2 公式求解歐氏距離,結果是:\t"+str(dist4))
5、切比雪夫距離:
描述:在數學中,切比雪夫距離(Chebyshev distance)或是 L∞度量,是向量空間中的一種 度量,二個點之間的距離定義是其各坐標數值差絕對值的最大值
如圖:
國際象棋棋盤上二個位置間的切比雪夫距離是指王要從一個位子移至另一個位子需要走的步數。由於王可 以往斜前或斜后方向移動一格,因此可以較有效率的到達目的的格子。上圖是棋盤上所有位置距 f6 位置的 切比雪夫距離。
公式化: 二維平面兩點 a(x1,y1) b(x2,y2)之間的切比雪夫距離
程序實現:
1 import numpy as np 2 from scipy.spatial.distance import pdist 3 from numpy import * 4 # 切比雪夫距離 5 def chebyshevDistance(): 6 vec1 = np.mat([1,2,3,4]) 7 vec2 = np.mat([5,6,7,8]) 8 9 print("vec1 = ",vec1) 10 print("vec2 = ",vec2) 11 12 #方法一 根據公式求解 13 dist1 = np.max(np.abs(vec1 - vec2)) 14 print("公式求解切比雪夫距離:\t"+str(dist1)) 15 16 #方法二 根據scipy庫求解 17 Vec = np.vstack([vec1,vec2]) 18 dist2 = pdist(Vec,'chebyshev') 19 print("scipy庫求解切比雪夫距離:\t"+str(dist2))
6、傑卡德距離:
描述: 1. 傑卡德相似系數:兩個集合 A 和 B 的交集元素在 A、B 並集中所占的比例,稱為兩個集 合的傑卡德相似系數,用符號 J(A,B)表示。
2. 傑卡德距離:與傑卡德系數相反的概念,用兩個集合中不同元素占所有元素的比例來衡 量兩個集合的區分度,這就是傑卡德距離。
其應用:傑卡德相似系數用在衡量樣本相似度上。
公式化:
程序實現:
1 import numpy as np 2 from scipy.spatial.distance import pdist 3 from numpy import * 4 #傑卡德距離 5 def jaccardDistance(): 6 v1 = np.random.random(10) > 0.5 7 v2 = np.random.random(10) > 0.5 8 9 vec1 = np.asarray(v1,np.int32) 10 vec2 = np.asarray(v2,np.int32) 11 12 print("vec1 = ",vec1) 13 print("vec2 = ",vec2) 14 15 #方法一 根據公式求解 16 up = np.double(np.bitwise_and((vec1 != vec2),np.bitwise_or(vec1 != 0,vec2 != 0)).sum()) 17 down = np.double(np.bitwise_or(vec1 != 0,vec2 != 0).sum()) 18 dist1 = (up / down) 19 print("公式求解傑卡德距離:\t"+str(dist1)) 20 21 #方法二 根據scipy庫求解 22 Vec = np.vstack([vec1,vec2]) 23 dist2 = pdist(Vec,'jaccard') 24 print("scipy求解傑卡德距離:\t"+str(dist2))
7、漢明距離
描述:在信息論中兩個等長字符串之間的距離是兩個字符串對應位置的不同字符的個數。換 句話說,也就是將一個字符串換成另一個字符串所需要替換的字符個數。
公式化描述: 1011101 與 1001001 之間的漢明距離是 2
程序實現:
1 import numpy as np 2 from scipy.spatial.distance import pdist 3 from numpy import * 4 #漢明距離 5 def hammingDistance(): 6 v1 = np.random.random(10)>0.5 7 v2 = np.random.random(10)>0.5 8 9 vec1 = np.asarray(v1,np.int32) 10 vec2 = np.asarray(v2,np.int32) 11 12 print("vec1 = ",vec1) 13 print("vec2 = ",vec2) 14 15 #方法一 根據公式求解 16 dist1 = np.mean(vec1!=vec2) 17 print("公式求解漢明距離為:\t"+str(dist1)) 18 19 #方法二 根據scipy庫求解 20 Vec = np.vstack([vec1,vec2]) 21 dist2 = pdist(Vec,'hamming') 22 print("scipy庫求解漢明距離:\t"+str(dist2))