minhash算法詳解和LSH


俄亥俄州立 算法講義(非常詳細)

http://web.cse.ohio-state.edu/~sun.397/courses/au2018/FPM-basic-osu-1114.pdf

minhash性質 

 

 

 

 

 

 任意k個元素中有一個是排列Pi下的minhash的概率為k/|X|

在|C1交C2|中選一個才有可能是相同的minhash

 

 

 

 

 LSH

 

 

 

 b表示一共用20個band

 r表示一個band由r個數組成 如果兩個band的這r個數都相同,他們就會被映射到同一個桶中

 

 

 

每一列是一個簽名

每一行是一個所有簽名的組合

b*r為產生簽名的hash函數個數

 

 如果在一個hash函數的作用下被映射到同一個桶中,就作為一個candidate pair 不管其他的hash函數作用下它們會如何映射

 

 

如果b很小 r很大 兩個簽名被hash到同一個桶的概率很小 

r越大 就要滿足越多的元素均相同才會被hash到同一個桶中 概率降低

 

 

 

 如果Jaccard similarity很大 幾乎所有的都會是false postive

如果Jaccard similarity很小 幾乎不會有false postive

 

 

  對比上下兩幅圖 直線上方的部分為原先應該被映射到一起卻未被映射到一起的元素

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM