基本概念
數據矩陣
表示 n個對象 × p個屬性
相異性矩陣
表示n個對象兩兩之間的臨近度 n×n的矩陣
d(i,j)表示對象i與對象j之間的相異性
1 標稱屬性的臨近性度量
計算公式:
m: 匹配的數目(即i和j取值相同狀態的屬性數)
p: 刻畫對象的屬性總數
令p=1 (主要目的是使相異矩陣的值在[0,1]之間),相同時為1,不同時為0
相異矩陣為:
相似性:
2 二元屬性的臨近性度量
(1)對稱的二元相異性
其中q,r,s,t的含義見表2.3
(2)非對稱的二元相異性
可以看出非對稱的二元相異性是忽略t的,即忽略屬性均為0的
例:
y(yes) p(positive) 值為1,n(no, negative) 值為0
其中name是對象標示符,gender是對稱屬性,其余均為非對稱屬性
對於非對稱屬性進行計算:
d(Jack,Jim)=(1+1)/(1+1+1)=0.67
d(Jack,Mary)=(0+1)/(2+0+1)=0.33
d(Jim,Mary)=(1+2)/(1+1+2)=0.75
3 數值屬性的相異性
介紹幾個基本概念
一般計算距離之前數據應該規范化
歐幾里得距離
加權的歐幾里得距離
曼哈頓(城市塊)距離
閔可夫斯基距離
其中h是實數 h≥1
上確界距離
(1)序數屬性的臨近性度量
計算步驟:
第一步:把test-2的每個值替換為它的排位,則四個對象將分別被賦值為3,1,2,3
第二步:按照公式 Mf表示總的排位,rif表示第i個對象的排位 (此公式的目的是將每個屬性的值域映射到[0.0,1.0])
所以排位1的值為0,排位2的值為0.5,排位3的值為1
第三步:可以使用比如歐幾里得距離算出相異性矩陣
(2)數值屬性的臨近性度量
對test-3計算
maxhxh=64,minhxh=22
4 混合類型屬性的相異性
把所有有意義的屬性轉換到共同的區間[0.0,1.0]上
結果
5 余弦相似性
對於稀疏矩陣,例比較文檔或針對給定的查詢詞向量對文檔排序
例: