1.介紹
爬蟲采集了大量的文本數據,如何進行去重?可以使用文本計算MD5,然后與已經抓取下來的MD5集合進行比較,但這種做法有個問題,文本稍有不同MD5值都會大相徑庭,
無法處理文本相似問題。另一種方式是本文要介紹的SimHash,這是谷歌提出的一種局部敏感哈希算法,在吳軍老師的《數學之美》里也有介紹,這種算法可以將文本降維成一個
數字,極大地減少了去重操作的計算量。SimHash算法主要分為以下幾個步驟:
1.分詞,並為每個詞加上權重,代表這個詞在這句話中的重要程度(可以考慮使用TF-IDF算法)
2.哈希,分好每個詞映射為哈希值
3.加權,按照單詞的權重形成加權數字串,比如“美國”的hash值為“100101”,通過加權計算為“4 -4 -4 4 -4 4”;“51區”的hash值為“101011”,通過加權計算為 “ 5 -5 5 -5 5 5”。
4.合並,把上面各個單詞算出來的序列值累加,變成只有一個序列串
5.降維,如果序列串每一位大於0 記為 1,小於0 記為 0。最后算出結果為:“1 0 1 0 1 1”。
2.SimHash的比較
根據上面的步驟可以計算出每個文本的一個SimHash值,兩個SimHash的相似度就是通過比較不同二者數位的個數,這叫做海明距離,比如10101 和 00110 ,海明距離
為3。
3.比較效率的提高
加入我們已經有了一個simhash庫,現在有一個query過來需要查詢是否庫里存在與這個query海明距離為1到3的文本,如何查詢?
方式1. 將這個query的海明距離為1到3的結果實時計算出來,然后依次在庫里查找,缺點:海明距離為1到3的結果可能有上萬個,逐個查詢效率肯定很低。
方式2.將庫里每個simhash海明距離為1到3的結果事先離線計算出來,這樣每個查詢只需要O(1)的復雜度。缺點:需要的存儲空間非常大。
待續。。。。