之前《皮爾遜相關系數(Pearson Correlation Coefficient, Pearson's r)》一文介紹了皮爾遜相關系數。那么,皮爾遜相關系數(Pearson Correlation Coefficient)和余弦相似度(Cosine Similarity)之間有什么關聯呢?
首先,我們來看一下什么是余弦相似度。說到余弦相似度,就要用到余弦定理(Law of Cosine)。

假設兩個向量
和
之間的夾角為
。
,
向量的長度分別是
和
,
對應的邊長為向量
減去向量
的長度,也就是
。
根據余弦定理:![]()
對上式進行推導:
這樣最終可以得到:
就是余弦相似度,取值在-1和1之間。如果兩個向量方向相反,那么
等於-1;如果兩個向量方向相同,那么
等於1。可以看出,兩個向量之間的夾角越小,其夾角余弦越大(越相似)。因此余弦相似度可以用來度量兩個變量之間的相似程度。
上面針對的是二維空間,
(x1,y1),
(x2,y2)兩個向量之間的夾角余弦為:
擴展到n維空間,
(x1,x2,...,xn),
(y1,y2,...,yn)兩個向量之間的夾角余弦就是:
如果對上式數據做標准化處理:
夾角余弦公式就會變為:
對比皮爾遜相關系數的公式:
這兩者不是完全一樣嗎?
因此,我們得到結論:皮爾遜相關系數就是把兩組數據標准化處理之后的向量夾角的余弦。
