徹底弄懂LSH之simHash算法

本文轉載自查看原文 2015-05-21 00:03 19824 IR

　　馬克·吐溫曾經說過，所謂經典小說，就是指很多人希望讀過，但很少人真正花時間去讀的小說。這種說法同樣適用於“經典”的計算機書籍。

　　最近一直在看LSH，不過由於matlab基礎比較差，一直沒搞懂。最近看的論文里幾乎都是用simHash來實現LSH，從而進行ANN。

　　有空看看基於滑動窗口的論文相似性檢測。

　　如何用matlab畫出一個數列（函數）的收斂過程（菱形收斂、圓形收斂）？

　　學完分布式了，我打算自己學WordPress，建立自己的獨立博客，放在雲平台或者服務器空間，然后學着分析流量和負載均衡這一類，這也算是數據挖掘了吧。

　　我的學習目標：像吳軍博士一樣深入淺出地講解出來一個知識點，這需要很深厚的積累，我以前寫的《徹底弄懂最短路徑問題》，自己感覺挺不錯的，網友反饋也不錯；雖然說實踐和理論相輔相成，筆者個人覺得鮮血little理論，再搞many實踐，最后在學much理論，進而繼續指導實踐，螺旋遞增式學習。

一.基礎知識

1.1 Java位運算

　　位運算只適合整數哦。。。因為浮點的存儲方案決定不能位運算，如果非要位運算，就需要Float.floatToIntBits，運算完，再通過Float.intBitsToFloat轉化回去。(java默認的float,double的hashcode其實就是對應的floatToIntBits的int值)

1.2 Java中浮點數比較大小

　　C++用fabs函數，Java中用Double.doubleToLongBits函數，然后直接比較大小，內部原理不做探討。

1.3 StringTokenzier

　　Java中substring方法可以分解字符串，返回的是原字符串的一個子字符串。如果要講一個字符串分解為一個一個的單詞或者標記，StringTokenizer可以幫你。

　　StringTokenizer確實更快些，至於為什么jdk里不推薦使用了，還要再研究（現在是split結合正則表達式）。
　　測試方法：用StringBuilder的append方法，構造100W字符串，然后分別分別測試並算時間就ok了。

1.4 偶然所得

　　final可以不再定義時候初始化，好像可以再構造方法里初始化。

二.simHash算法簡介

　　以前寫的一個介紹simHash的。

　　1、分詞，把需要判斷文本分詞形成這個文章的特征單詞。最后形成去掉噪音詞的單詞序列並為每個詞加上權重，我們假設權重分為5個級別（1~5）。比如：“ 美國“51區”雇員稱內部有9架飛碟，曾看見灰色外星人 ” ==> 分詞后為 “ 美國（4） 51區（5）雇員（3）稱（1）內部（2）有（1） 9架（3）飛碟（5）曾（1）看見（3）灰色（4）外星人（5）”，括號里是代表單詞在整個句子里重要程度，數字越大越重要。

　　2、hash，通過hash算法把每個詞變成hash值，比如“美國”通過hash算法計算為 100101,“51區”通過hash算法計算為 101011。這樣我們的字符串就變成了一串串數字，還記得文章開頭說過的嗎，要把文章變為數字計算才能提高相似度計算性能，現在是降維過程進行時。

　　3、加權，通過 2步驟的hash生成結果，需要按照單詞的權重形成加權數字串，比如“美國”的hash值為“100101”，通過加權計算為“4 -4 -4 4 -4 4”；“51區”的hash值為“101011”，通過加權計算為 “ 5 -5 5 -5 5 5”。

　　4、合並，把上面各個單詞算出來的序列值累加，變成只有一個序列串。比如 “美國”的 “4 -4 -4 4 -4 4”，“51區”的 “ 5 -5 5 -5 5 5”，把每一位進行累加， “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。這里作為示例只算了兩個單詞的，真實計算需要把所有單詞的序列串累加。

　　5、降維，把4步算出來的 “9 -9 1 -1 1 9” 變成 0 1 串，形成我們最終的simhash簽名。如果每一位大於0 記為 1，小於0 記為 0。最后算出結果為：“1 0 1 0 1 1”。

三.算法幾何意義及原理

3.1 幾何意義

　　這個算法的幾何意義非常明了。它首先將每一個特征映射為f維空間的一個向量，這個映射規則具體是怎樣並不重要，只要對很多不同的特征來說，它們對所對應的向量是均勻隨機分布的，並且對相同的特征來說對應的向量是唯一的就行。比如一個特征的4位hash簽名的二進制表示為1010，那么這個特征對應的 4維向量就是(1, -1, 1, -1)T，即hash簽名的某一位為1，映射到的向量的對應位就為1，否則為-1。然后，將一個文檔中所包含的各個特征對應的向量加權求和，加權的系數等於該特征的權重。得到的和向量即表征了這個文檔，我們可以用向量之間的夾角來衡量對應文檔之間的相似度。最后，為了得到一個f位的簽名，需要進一步將其壓縮，如果和向量的某一維大於0，則最終簽名的對應位為1，否則為0。這樣的壓縮相當於只留下了和向量所在的象限這個信息，而64位的簽名可以表示多達264個象限，因此只保存所在象限的信息也足夠表征一個文檔了。

3.2 算法原理描述性證明

　　明確了算法了幾何意義，使這個算法直觀上看來是合理的。但是，為何最終得到的簽名相近的程度，可以衡量原始文檔的相似程度呢？這需要一個清晰的思路和證明。在simhash的發明人Charikar的論文中並沒有給出具體的simhash算法和證明，以下列出我自己得出的證明思路。
　　Simhash是由隨機超平面hash算法演變而來的，隨機超平面hash算法非常簡單，對於一個n維向量v，要得到一個f位的簽名(f<<n)，算法如下：
　　1，隨機產生f個n維的向量r1,…rf；
　　2，對每一個向量ri，如果v與ri的點積大於0，則最終簽名的第i位為1，否則為0.
　　這個算法相當於隨機產生了f個n維超平面，每個超平面將向量v所在的空間一分為二，v在這個超平面上方則得到一個1，否則得到一個0，然后將得到的 f個0或1組合起來成為一個f維的簽名。如果兩個向量u, v的夾角為θ，則一個隨機超平面將它們分開的概率為θ/π，因此u, v的簽名的對應位不同的概率等於θ/π。所以，我們可以用兩個向量的簽名的不同的對應位的數量，即漢明距離，來衡量這兩個向量的差異程度。
　　Simhash算法與隨機超平面hash是怎么聯系起來的呢？在simhash算法中，並沒有直接產生用於分割空間的隨機向量，而是間接產生的：第 k個特征的hash簽名的第i位拿出來，如果為0，則改為-1，如果為1則不變，作為第i個隨機向量的第k維。由於hash簽名是f位的，因此這樣能產生 f個隨機向量，對應f個隨機超平面。下面舉個例子：
　　假設用5個特征w1,…,w5來表示所有文檔，現要得到任意文檔的一個3維簽名。假設這5個特征對應的3維向量分別為：
　　h(w1) = (1, -1, 1)T
　　h(w2) = (-1, 1, 1)T
　　h(w3) = (1, -1, -1)T
　　h(w4) = (-1, -1, 1)T
　　h(w5) = (1, 1, -1)T
　　按simhash算法，要得到一個文檔向量d=(w1=1, w2=2, w3=0, w4=3, w5=0) T的簽名，
先要計算向量m = 1*h(w1) + 2*h(w2) + 0*h(w3) + 3*h(w4) + 0*h(w5) = (-4, -2, 6) T，然后根據simhash算法的步驟3，得到最終的簽名s=001。上面的計算步驟其實相當於，先得到3個5維的向量，第1個向量由h(w1),…,h(w5)的第1維組成：r1=(1,-1,1,-1,1) T；第2個5維向量由h(w1),…,h(w5)的第2維組成：r2=(-1,1,-1,-1,1) T；同理，第3個5維向量為：r3=(1,1,-1,1,-1) T.按隨機超平面算法的步驟2，分別求向量d與r1,r2,r3的點積:

　　d T r1=-4 < 0，所以s1=0;
　　d T r2=-2 < 0，所以s2=0;
　　d T r3=6 > 0，所以s3=1.
　　故最終的簽名s=001，與simhash算法產生的結果是一致的。
　　從上面的計算過程可以看出，simhash算法其實與隨機超平面hash算法是相同的，simhash算法得到的兩個簽名的漢明距離，可以用來衡量原始向量的夾角。這其實是一種降維技術，將高維的向量用較低維度的簽名來表征。衡量兩個內容相似度，需要計算漢明距離，這對給定簽名查找相似內容的應用來說帶來了一些計算上的困難；我想，是否存在更為理想的simhash算法，原始內容的差異度，可以直接由簽名值的代數差來表示呢？

　　參考http://blog.sina.com.cn/s/blog_72995dcc010145ti.html

四.算法與網頁去重

　　例如，文本的特征可以選取分詞結果，而權重可以用df來近似。
　　Simhash具有兩個“沖突的性質”：
　　1. 它是一個hash方法
　　2. 相似的文本具有相似的hash值，如果兩個文本的simhash越接近，也就是漢明距離越小，文本就越相似。
　　因此海量文本中查重的任務轉換位如何在海量simhash中快速確定是否存在漢明距離小的指紋。也就是：在n個f-bit的指紋中，查詢漢明距離小於k的指紋。
在文章的實驗中，simhash采用64位的哈希函數。在80億網頁規模下漢明距離=3剛好合適。
因此任務的f-bit=64 , k=3 , n= 8*10^11
　　任務清晰，首先看一下兩種很直觀的方法：
　　1. 枚舉出所有漢明距離小於3的simhash指紋，對每個指紋在80億排序指紋中查詢。（這種方法需要進行C（64，3）=41664詞的simhash指紋，再為每個進行一次查詢）
　　2. 所有接近的指紋排序到一起，這至多有41664排序可能，需要龐大的空間。提出的方法介於兩者之間，合理的空間和時間的折中。
　　假設我們有一個已經排序的容量為2d，f-bit指紋集。看每個指紋的高d位。該高低位具有以下性質：盡管有很多的2d位組合存在，但高d位中有只有少量重復的。
　　現在找一個接近於d的數字d’，由於整個表是排好序的，所以一趟搜索就能找出高d’位與目標指紋F相同的指紋集合f’。因為d’和d很接近，所以找出的集合f’也不會很大。
　　最后在集合f’中查找和F之間海明距離為k的指紋也就很快了。
　　總的思想：先要把檢索的集合縮小，然后在小集合中檢索f-d’位的海明距離
按照例子，80億網頁有2^34 個，那么理論上34位就能表示完80億不重復的指紋。我們假設最前的34位的表示完了80億指紋，假設指紋在前30位是一樣的，那么后面4位還可以表示24個，只需要逐一比較這16個指紋是否於待測指紋漢明距離小於3。
　　假設：對任意34位中的30位都可以這么做。
　　因此在一次完整的查找中，限定前q位精確匹配（假設這些指紋已經是q位有序的，可以采用二分查找，如果指紋量非常大，且分布均勻，甚至可以采用內插搜索），之后的2d-q個指紋剩下64-q位需要比較漢明距離小於3。
　　於是問題就轉變為如何切割64位的q。
　　將64位平分成若干份，例如4份ABCD，每份16位。
　　假設這些指紋已經按A部分排序好了，我們先按A的16位精確匹配到一個區間，這個區間的后BCD位檢查漢明距離是否小於3。
　　同樣的假設，其次我們按B的16位精確匹配到另一個區間，這個區間的所有指紋需要在ACD位上比較漢明距離是否小於3。
　　同理還有C和D，所以這里我們需要將全部的指紋T復制4份， T1 T2 T3 T4， T1按A排序，T2按B排序… 4份可以並行進行查詢，最后把結果合並。這樣即使最壞的情況：3個位分別落在其中3個區域ABC,ACD,BCD,ABD…都不會被漏掉。

　　只精確匹配16位，還需要逐一比較的指紋量依然龐大，可能達到2d-16個，我們也可以精確匹配更多的。
　　例如：將64位平分成4份ABCD，每份16位，在BCD的48位上，我們再分成4份，WXZY，每份12位，漢明距離的3位可以散落在任意三塊，那么A與WXZY任意一份合起來做精確的28位…剩下3份用來檢查漢明距離。同理B，C，D也可以這樣，那么T需要復制16次，ABCD與WXYZ的組合做精確匹配，每次精確匹配后還需要逐一比較的個數降低到2d-28個。不同的組合方式也就是時間和空間上的權衡。
　　最壞情況是其中3份可能有1位漢明距離差異為1。
　　算法的描述如下：
　　1）先復制原表T為Tt份：T1,T2,….Tt
　　2）每個Ti都關聯一個pi和一個πi，其中pi是一個整數, πi是一個置換函數，負責把pi個bit位換到高位上。
　　3）應用置換函數πi到相應的Ti表上，然后對Ti進行排序
　　4）然后對每一個Ti和要匹配的指紋F、海明距離k做如下運算：
　　　　a) 然后使用F’的高pi位檢索，找出Ti中高pi位相同的集合
　　　　b) 在檢索出的集合中比較f-pi位，找出海明距離小於等於k的指紋
　　5）最后合並所有Ti中檢索出的結果
　　由於文本已經壓縮成8個字節了，因此其實Simhash近似查重精度並不高：

　　筆者注：這個方法是第二次看了，還是不甚理解........講解不夠直觀明了..........

五.算法Java實現

　　想了很久，覺得直接放代碼是個不好的習慣，容易依賴別人，所以筆者放在CSDN上，不過只需要1分。

六.結束語及參考文獻

6.1 結束語

　　熬夜感覺並不好，如何才能戒掉這個壞習慣。

　　谷歌真叼......

　　筆者會在下一篇博文里探討simHash和VSM與網頁去重。

　　探討信息檢索與跳躍表。

　　探討二分圖最大權匹配（這個應用比較廣吧，感覺可以用來精確投放廣告，靈感來自計算機121教師和課程互選）。

6.2 部分參考文獻

　　http://blog.sina.com.cn/s/blog_72995dcc010145ti.html

　　http://gemantic.iteye.com/blog/1701101

　　http://blog.csdn.net/lgnlgn/article/details/6008498

　　http://blog.csdn.net/meijia_tts/article/details/7928579

　　論文Detecting near-duplicates for web crawling.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [啊哈！算法] 零基礎徹底弄懂"並查集" 局部敏感哈希（LSH）之simhash和minhash simhash算法 simhash算法網頁去重之Simhash算法 minhash算法詳解和LSH LSH算法原理徹底弄懂flex布局這次我讓你徹底弄懂 RESTful 徹底弄懂 Unicode 編碼