余弦相似度


定義

余弦相似度(cosine similarity),又稱為余弦相似性。通過計算兩個向量的夾角余弦值來評估他們的相似度。

 

概念

向量,是多維空間中有方向的線段,如下圖是二維空間的兩個向量:

 

如果兩個向量的方向一致,即夾角接近零,那么這兩個向量就相近。
要確定兩個向量方向是否一致,可以用余弦定理計算向量的夾角。夾角越小,余弦值越接近於1,它們的方向更加吻合,則越相似。

 

計算

對於二維空間,根據向量點積公式可得:


假設向量a、b的坐標分別為(x1,y1)、(x2,y2) 。則:


設向量 A = (A1,A2,...,An),B = (B1,B2,...,Bn) 。推廣到多維:

例如計算N維向量,展開之后就是:

 

應用
最常見的應用就是計算文本相似度。將兩個文本根據他們詞,建立倆個向量,計算這兩個向量的余弦值,就可以知道兩個文本的相似度情況。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM