Jaccard系數與Jaccard距離


Jaccard(傑卡德)系數主要用於計算樣本間的相似度。Jaccard系數的計算方式為:樣本交集個數和樣本並集個數的比值,用J(A,B)表示。公式為:
這里寫圖片描述
jaccard系數相反的即為jaccard距離,用兩個集合中不同元素所占元素的比例來衡量兩個樣本之間的相似度,公式為:
這里寫圖片描述
Jaccard系數主要的應用的場景有
1.過濾相似度很高的新聞,或者網頁去重
2.考試防作弊系統
3.論文查重系統
舉個栗子:
集合A = {a, b, c, d}
集合B = {c, d, e, f}
A∩B = {c, d}
A∪B = {a, b, c, d, e, f}
交集中有2個元素,並集中有6個元素,因此:
傑卡德系數為:J(A,B) = 2/6 = 1/3
傑卡德距離為:1 - J(A,B) = 2/3
---------------------
作者:EchoShelter
來源:CSDN
原文:https://blog.csdn.net/qq_26710805/article/details/79855226
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM