1 余弦相似度
余弦相似度是通過測量兩個向量之間的夾角的余弦值來度量他們之間的一個相似度.0度角的余弦值是1,其他的任何角度的余弦值都不大於1,最小值是-1,從而兩個向量之間角度的余弦值確定了兩個向量是否指向同一個方向.兩個向量的指向相同時,余弦相似度為1,當兩個向量的夾角是90度時,余弦相似度的值為0,兩個向量的指向完全相反時,余弦相似度的值為-1.*這個結果與向量的長度無關,僅僅與向量的指向有關.
余弦相似度通常用於正空間,因此一般的值為0到1之間.這個界限對任意維度的向量空間都適用,而且余弦相似度最長應用於高維正空間.它通常應用於文本挖掘中的文件比較,另外,在數據挖掘領域,常用來度量集群內部的凝聚力.
兩個向量之間的余弦值可以通過使用歐幾里得點積公式求出:
給定兩個屬性向量,A和B,其余弦相似性由點積和向量長度給出,如下所示:
公式推導:
2 余弦距離
簡單來說,余弦距離就是用1 減去我們的余弦相似度獲得的.余弦相似度的取值范圍是[-1,1],方向相同的兩個向量之間的相似度是1,余弦距離的取值范圍是[0,2]
我們看下余弦距離與歐式距離之間的關系:
余弦距離並不是嚴格意義上的距離,但根據數學上的定義,在一個集合中,如果一對元素可確定一個實數,使得非負性,對稱性和三角不等式成立,則該實數可稱為這對元素之間的距離.1
1 非負性
根據上述的介紹,余弦距離的取值范圍為[0,2],滿足非負性的性質
2 對稱性
dist(A,B)=1−cosθ