minhash

1. 把文檔A分詞形成分詞向量L
2. 使用K個hash函數，然后每個hash將L里面的分詞分別進行hash，然后得到K個被hash過的集合
3. 分別得到K個集合中的最小hash，然后組成一個長度為K的hash集合
4. 最后用Jaccard index求出兩篇文檔的相似度

simhash

1. 把文檔A分詞形成分詞向量L，L中的每一個元素都包涵一個分詞C以及一個分詞的權重W
2. 對L中的每一個元素的分詞C進行hash，得到C1，然后組成一個新的向量L1
3. 初始化一個長度大於C1長度的向量V，所有元素初始化為0
4. 分別判斷L1中的每一個元素C1的第i位，如果C1i是1，那么Vi加上w，否則Vi減去w
5. 最后判斷V中的每一項，如果第i項大於0，那么第i項變成1，否則變成0
6. 兩篇文檔a,b分別得到aV,bV
6. 最后求出aV和bV的海明距離，一般距離不大於3的情況下說明兩篇文檔是相似的

SimHash的工作原理

SimHash算法工作流程圖：

1、分詞，把需要判斷文本分詞形成這個文章的特征單詞。最后形成去掉噪音詞的單詞序列並為每個詞加上權重，我們假設權重分為5個級別（1~5）。比如：“ 美國“51區”雇員稱內部有9架飛碟，曾看見灰色外星人 ” ==> 分詞后為 “ 美國（4） 51區（5）雇員（3）稱（1）內部（2）有（1） 9架（3）飛碟（5）曾（1）看見（3）灰色（4）外星人（5）”，括號里是代表單詞在整個句子里重要程度，數字越大越重要。
2、hash，通過hash算法把每個詞變成hash值，比如“美國”通過hash算法計算為 100101,“51區”通過hash算法計算為 101011。這樣我們的字符串就變成了一串串數字，還記得文章開頭說過的嗎，要把文章變為數字計算才能提高相似度計算性能，現在是降維過程進行時。
3、加權，通過 2步驟的hash生成結果，需要按照單詞的權重形成加權數字串，比如“美國”的hash值為“100101”，通過加權計算為“4 -4 -4 4 -4 4”；“51區”的hash值為“101011”，通過加權計算為 “ 5 -5 5 -5 5 5”。
4、合並，把上面各個單詞算出來的序列值累加，變成只有一個序列串。比如 “美國”的 “4 -4 -4 4 -4 4”，“51區”的 “ 5 -5 5 -5 5 5”，把每一位進行累加， “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。這里作為示例只算了兩個單詞的，真實計算需要把所有單詞的序列串累加。
5、降維，把4步算出來的 “9 -9 1 -1 1 9” 變成 0 1 串，形成我們最終的simhash簽名。如果每一位大於0 記為 1，小於0 記為 0。最后算出結果為：“1 0 1 0 1 1”。

整個過程圖為：

一個例子如下：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Locality Sensitive Hashing(局部敏感哈希)之cross-polytope LSH 從NLP任務中文本向量的降維問題，引出LSH（Locality Sensitive Hash 局部敏感哈希）算法及其思想的討論局部敏感哈希源代碼-python 局部敏感哈希-Locality Sensitivity Hashing minHash最小哈希原理大規模異常濫用檢測：基於局部敏感哈希算法——來自Uber Engineering的實踐 20. 敏感性分析（一）局部敏感性分析 simhash算法原理哈希表和完美哈希哈希碰撞和哈希沖突