文本查重算法SimHash


1.介紹  

爬蟲采集了大量的文本數據,如何進行去重?可以使用文本計算MD5,然后與已經抓取下來的MD5集合進行比較,但這種做法有個問題,文本稍有不同MD5值都會大相徑庭,

無法處理文本相似問題。另一種方式是本文要介紹的SimHash,這是谷歌提出的一種局部敏感哈希算法,在吳軍老師的《數學之美》里也有介紹,這種算法可以將文本降維成一個

數字,極大地減少了去重操作的計算量。SimHash算法主要分為以下幾個步驟:

  1.分詞,並為每個詞加上權重,代表這個詞在這句話中的重要程度(可以考慮使用TF-IDF算法)

  2.哈希,分好每個詞映射為哈希值

  3.加權,按照單詞的權重形成加權數字串,比如“美國”的hash值為“100101”,通過加權計算為“4 -4 -4 4 -4 4”;“51區”的hash值為“101011”,通過加權計算為 “ 5 -5 5 -5 5 5”。

  4.合並,把上面各個單詞算出來的序列值累加,變成只有一個序列串

  5.降維,如果序列串每一位大於0 記為 1,小於0 記為 0。最后算出結果為:“1 0 1 0 1 1”。

2.SimHash的比較

  根據上面的步驟可以計算出每個文本的一個SimHash值,兩個SimHash的相似度就是通過比較不同二者數位的個數,這叫做海明距離,比如10101 和 00110 ,海明距離

為3。

3.比較效率的提高

 加入我們已經有了一個simhash庫,現在有一個query過來需要查詢是否庫里存在與這個query海明距離為1到3的文本,如何查詢?

    方式1. 將這個query的海明距離為1到3的結果實時計算出來,然后依次在庫里查找,缺點:海明距離為1到3的結果可能有上萬個,逐個查詢效率肯定很低。

    方式2.將庫里每個simhash海明距離為1到3的結果事先離線計算出來,這樣每個查詢只需要O(1)的復雜度。缺點:需要的存儲空間非常大。

 

待續。。。。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM