定義
余弦相似度(cosine similarity),又稱為余弦相似性。通過計算兩個向量的夾角余弦值來評估他們的相似度。
概念
向量,是多維空間中有方向的線段,如下圖是二維空間的兩個向量:

如果兩個向量的方向一致,即夾角接近零,那么這兩個向量就相近。
要確定兩個向量方向是否一致,可以用余弦定理計算向量的夾角。夾角越小,余弦值越接近於1,它們的方向更加吻合,則越相似。
計算
對於二維空間,根據向量點積公式可得:
假設向量a、b的坐標分別為(x1,y1)、(x2,y2) 。則:
設向量 A = (A1,A2,...,An),B = (B1,B2,...,Bn) 。推廣到多維:

例如計算N維向量,展開之后就是:
應用
最常見的應用就是計算文本相似度。將兩個文本根據他們詞,建立倆個向量,計算這兩個向量的余弦值,就可以知道兩個文本的相似度情況。
