文本查重算法SimHash

本文轉載自查看原文 2018-03-21 14:14 1245 大數據開發/ 算法與數據結構

爬蟲采集了大量的文本數據，如何進行去重？可以使用文本計算MD5，然后與已經抓取下來的MD5集合進行比較，但這種做法有個問題，文本稍有不同MD5值都會大相徑庭，

無法處理文本相似問題。另一種方式是本文要介紹的SimHash，這是谷歌提出的一種局部敏感哈希算法，在吳軍老師的《數學之美》里也有介紹，這種算法可以將文本降維成一個

數字，極大地減少了去重操作的計算量。SimHash算法主要分為以下幾個步驟：

1.分詞，並為每個詞加上權重，代表這個詞在這句話中的重要程度（可以考慮使用TF-IDF算法）

2.哈希，分好每個詞映射為哈希值

3.加權，按照單詞的權重形成加權數字串，比如“美國”的hash值為“100101”，通過加權計算為“4 -4 -4 4 -4 4”；“51區”的hash值為“101011”，通過加權計算為 “ 5 -5 5 -5 5 5”。

4.合並，把上面各個單詞算出來的序列值累加，變成只有一個序列串

5.降維，如果序列串每一位大於0 記為 1，小於0 記為 0。最后算出結果為：“1 0 1 0 1 1”。

根據上面的步驟可以計算出每個文本的一個SimHash值，兩個SimHash的相似度就是通過比較不同二者數位的個數，這叫做海明距離，比如10101 和 00110 ，海明距離

為3。

加入我們已經有了一個simhash庫，現在有一個query過來需要查詢是否庫里存在與這個query海明距離為1到3的文本，如何查詢？

方式1. 將這個query的海明距離為1到3的結果實時計算出來，然后依次在庫里查找，缺點：海明距離為1到3的結果可能有上萬個，逐個查詢效率肯定很低。

方式2.將庫里每個simhash海明距離為1到3的結果事先離線計算出來，這樣每個查詢只需要O(1)的復雜度。缺點：需要的存儲空間非常大。

待續。。。。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Simhash實現論文查重查重算法 simhash算法 simhash算法徹底弄懂LSH之simHash算法高效網頁去重算法-SimHash 利用simhash計算文本相似度 MySql查重語句個人項目：論文查重個人項目：論文查重