俄亥俄州立 算法講義(非常詳細)
http://web.cse.ohio-state.edu/~sun.397/courses/au2018/FPM-basic-osu-1114.pdf
minhash性質
任意k個元素中有一個是排列Pi下的minhash的概率為k/|X|
在|C1交C2|中選一個才有可能是相同的minhash
LSH
b表示一共用20個band
r表示一個band由r個數組成 如果兩個band的這r個數都相同,他們就會被映射到同一個桶中
每一列是一個簽名
每一行是一個所有簽名的組合
b*r為產生簽名的hash函數個數
如果在一個hash函數的作用下被映射到同一個桶中,就作為一個candidate pair 不管其他的hash函數作用下它們會如何映射
如果b很小 r很大 兩個簽名被hash到同一個桶的概率很小
r越大 就要滿足越多的元素均相同才會被hash到同一個桶中 概率降低
如果Jaccard similarity很大 幾乎所有的都會是false postive
如果Jaccard similarity很小 幾乎不會有false postive
對比上下兩幅圖 直線上方的部分為原先應該被映射到一起卻未被映射到一起的元素