相似度的算法(歐幾里德距離和皮爾遜算法)


https://blog.csdn.net/u010095372/article/details/53932077

給了我兩個東西,每個東西上有不同的特征,那咱們就算算這兩個東西的相似的系數吧

先說歐幾里德距離,按幾何意義來講就是按n個特征給它建立起來n維坐標系,就先說二維吧,二維上就是兩個點咯,xy軸,這兩個點相似否,就看他的距離咯,於是

就求一下兩個點的距離,三個特征呢?那就是三維坐標系。由此推廣,可以推廣到n維。

公式:|x| = √( x[1]2 + x[2]2 + … + x[n]2 )  歐式距離百科

有些時候呢,它們就是因為有一個特征特別的不一樣,而導致兩者距離拉的很大。我們看這個皮爾遜吧

皮爾遜相關系數是比歐幾里德距離更加復雜的可以判斷人們興趣的相似度的一種方法。該相關系數是判斷兩組數據與某一直線擬合程序的一種試題。它在數據不是很規范的時候,會傾向於給出更好的結果。

它得出來的系數就在-1和1之間,也就是不相似和相似的程度

先看公式

假設有兩個變量X、Y,那么兩變量間的皮爾遜相關系數可通過以下公式計算:

公式一:

就理解第一個吧,上面是協方差,下面是兩個變量的方差開方。

方差越大就說明這個變量離散的厲害,不集中。

協方差就是描述X和Y相關程度的量(兩個變量總體誤差的期望)

皮爾遜相關系數計算公式

公式二:

 

皮爾遜相關系數計算公式

公式三:

 

皮爾遜相關系數計算公式

公式四:

 

皮爾遜相關系數計算公式

 

以上列出的四個公式等價,其中E是數學期望,cov表示協方差,N表示變量取值的個數。
里面期望最簡單就是求他們的平均值,E(XY),X和Y的值對應乘起來就再求平均值 方法
---------------------  
作者:赫凱  
來源:CSDN  
原文:https://blog.csdn.net/u010095372/article/details/53932077  
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM