Jaccard相關系數用來衡量兩個集合的相關性,數值越大,相似度就越高。相對於Jaccard系數,Jaccard距離是用來衡量兩個樣本集合的差異性的。
Jaccard相關系數:
Jaccard距離:
如果A,B集合中元素的取值為二值數(0,或者1,0代表此元素不在這個集合中,1代表此元素在這個集合中)那么Jaccard相關系數和Jaccard距離也可以這樣求:
M11代表A,B集合中相同位置同為1的個數
M01 代表A集合中相同位置元素為0,而B集合為1的個數
M10代表A集合中相同位置元素為1,而B集合為0的個數
M00代表A,B集合中相同位置同為0的個數
因為在大多情況下 ,0的個數會大大多於1的個數,就會顯得很稀疏,如果只考慮M11,則有:
s=M11/(M00+M10+M01+M11) 稱為Jaccard距離
而Tanimoto系數又稱為廣義的Jaccard相關系數
A,B代表兩個樣本向量