minhash算法详解和LSH


俄亥俄州立 算法讲义(非常详细)

http://web.cse.ohio-state.edu/~sun.397/courses/au2018/FPM-basic-osu-1114.pdf

minhash性质 

 

 

 

 

 

 任意k个元素中有一个是排列Pi下的minhash的概率为k/|X|

在|C1交C2|中选一个才有可能是相同的minhash

 

 

 

 

 LSH

 

 

 

 b表示一共用20个band

 r表示一个band由r个数组成 如果两个band的这r个数都相同,他们就会被映射到同一个桶中

 

 

 

每一列是一个签名

每一行是一个所有签名的组合

b*r为产生签名的hash函数个数

 

 如果在一个hash函数的作用下被映射到同一个桶中,就作为一个candidate pair 不管其他的hash函数作用下它们会如何映射

 

 

如果b很小 r很大 两个签名被hash到同一个桶的概率很小 

r越大 就要满足越多的元素均相同才会被hash到同一个桶中 概率降低

 

 

 

 如果Jaccard similarity很大 几乎所有的都会是false postive

如果Jaccard similarity很小 几乎不会有false postive

 

 

  对比上下两幅图 直线上方的部分为原先应该被映射到一起却未被映射到一起的元素

 

 

 

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM