數據挖掘:概念與技術--筆記1--度量數據的相似性與相異性


基本概念

數據矩陣

表示 n個對象 × p個屬性

相異性矩陣

表示n個對象兩兩之間的臨近度   n×n的矩陣

d(i,j)表示對象i與對象j之間的相異性

1 標稱屬性的臨近性度量

計算公式:

m: 匹配的數目(即i和j取值相同狀態的屬性數)

p:  刻畫對象的屬性總數

令p=1 (主要目的是使相異矩陣的值在[0,1]之間),相同時為1,不同時為0

相異矩陣為:

相似性:

 

2 二元屬性的臨近性度量

(1)對稱的二元相異性

其中q,r,s,t的含義見表2.3

 

(2)非對稱的二元相異性

可以看出非對稱的二元相異性是忽略t的,即忽略屬性均為0的

例:

y(yes) p(positive) 值為1,n(no, negative) 值為0

其中name是對象標示符,gender是對稱屬性,其余均為非對稱屬性

對於非對稱屬性進行計算:

d(Jack,Jim)=(1+1)/(1+1+1)=0.67

d(Jack,Mary)=(0+1)/(2+0+1)=0.33

d(Jim,Mary)=(1+2)/(1+1+2)=0.75

 

3 數值屬性的相異性

 介紹幾個基本概念

一般計算距離之前數據應該規范化

歐幾里得距離

 

加權的歐幾里得距離

曼哈頓(城市塊)距離

 

閔可夫斯基距離

其中h是實數 h≥1

上確界距離

 (1)序數屬性的臨近性度量

計算步驟:

第一步:把test-2的每個值替換為它的排位,則四個對象將分別被賦值為3,1,2,3

第二步:按照公式 Mf表示總的排位,rif表示第i個對象的排位 (此公式的目的是將每個屬性的值域映射到[0.0,1.0])

所以排位1的值為0,排位2的值為0.5,排位3的值為1

第三步:可以使用比如歐幾里得距離算出相異性矩陣

(2)數值屬性的臨近性度量

對test-3計算

maxhxh=64,minhxh=22

 

4 混合類型屬性的相異性

 把所有有意義的屬性轉換到共同的區間[0.0,1.0]上

 

結果

 

 5 余弦相似性

對於稀疏矩陣,例比較文檔或針對給定的查詢詞向量對文檔排序

例:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM