搜集了快一個月的資料,雖然不完全懂,但還是先慢慢寫着吧,說不定就有思路了呢。
開源的最大好處是會讓作者對臟亂臭的代碼有羞恥感。
當一個做推薦系統的部門開始重視【數據清理,數據標柱,效果評測,數據統計,數據分析】這些所謂的臟活累活,這樣的推薦系統才會有救。
求教GitHub的使用。
簡單不等於傻逼。
我為什么說累:我又是一個習慣在聊天中思考前因后果的人,所以整個大腦高負荷運轉。不過這樣真不好,學習學成傻逼了。
研一的最大收獲是讓我明白原來以前仰慕的各種國家自然基金項目,原來都是可以渾水摸魚忽悠過去的,效率不高不說,還有可能有很多錯誤,哎,我就不說了。
一、問題來源
查找LSH發現的,這個是谷歌現在的網頁去重方案。但是simHash和LSH有什么聯系呢?提前透漏下,simHash本質上是一種LSH。正因為它的局部敏感性(這段的局部敏感性指的是非常相似的文本,即便只差一個字符,md5后的序列也可能非常不同,但是simHash之后的序列可能只是某幾位不同),所以我們可以使用海明距離來衡量simhash值的相似度。
simhash是google用來處理海量文本去重的算法。google出品,你懂的。simhash最牛逼的一點就是將一個文檔,最后轉換成一個64位的字節,暫且稱之為特征字,然后判斷重復只需要判斷他們的特征字的距離是不是<n(根據經驗這個n一般取值為3),就可以判斷兩個文檔是否相似。
谷歌出品嘛,簡單實用。
二、算法解析
2.1 算法偽代碼
1、分詞,把需要判斷文本分詞形成這個文章的特征單詞。最后形成去掉噪音詞的單詞序列並為每個詞加上權重,我們假設權重分為5個級別(1~5)。比如:“ 美國“51區”雇員稱內部有9架飛碟,曾看見灰色外星人 ” ==> 分詞后為 “ 美國(4) 51區(5) 雇員(3) 稱(1) 內部(2) 有(1) 9架(3) 飛碟(5) 曾(1) 看見(3) 灰色(4) 外星人(5)”,括號里是代表單詞在整個句子里重要程度,數字越大越重要。
2、hash,通過hash算法把每個詞變成hash值,比如“美國”通過hash算法計算為 100101,“51區”通過hash算法計算為 101011。這樣我們的字符串就變成了一串串數字,還記得文章開頭說過的嗎,要把文章變為數字計算才能提高相似度計算性能,現在是降維過程進行時。
3、加權,通過 2步驟的hash生成結果,需要按照單詞的權重形成加權數字串,比如“美國”的hash值為“100101”,通過加權計算為“4 -4 -4 4 -4 4”;“51區”的hash值為“101011”,通過加權計算為 “ 5 -5 5 -5 5 5”。
4、合並,把上面各個單詞算出來的序列值累加,變成只有一個序列串。比如 “美國”的 “4 -4 -4 4 -4 4”,“51區”的 “ 5 -5 5 -5 5 5”, 把每一位進行累加, “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。這里作為示例只算了兩個單詞的,真實計算需要把所有單詞的序列串累加。
5、降維,把4步算出來的 “9 -9 1 -1 1 9” 變成 0 1 串,形成我們最終的simhash簽名。 如果每一位大於0 記為 1,小於0 記為 0。最后算出結果為:“1 0 1 0 1 1”。
2.2 simHash和傳統哈希的區別
大家可能會有疑問,經過這么多步驟搞這么麻煩,不就是為了得到個 0 1 字符串嗎?我直接把這個文本作為字符串輸入,用hash函數生成 0 1 值更簡單。其實不是這樣的,傳統hash函數解決的是生成唯一值,比如 md5、hashmap等。md5是用於生成唯一簽名串,只要稍微多加一個字符md5的兩個數字看起來相差甚遠;hashmap也是用於鍵值對查找,便於快速插入和查找的數據結構。不過我們主要解決的是文本相似度計算,要比較的是兩個文章是否相識,當然我們降維生成了hashcode也是用於這個目的。看到這里估計大家就明白了,我們使用的simhash就算把文章中的字符串變成 01 串也還是可以用於計算相似度的,而傳統的hashcode卻不行。我們可以來做個測試,兩個相差只有一個字符的文本串,“你媽媽喊你回家吃飯哦,回家羅回家羅” 和 “你媽媽叫你回家吃飯啦,回家羅回家羅”。
通過simhash計算結果為:
1000010010101101111111100000101011010001001111100001001011001011
1000010010101101011111100000101011010001001111100001101010001011
通過 hashcode計算為:
1111111111111111111111111111111110001000001100110100111011011110
1010010001111111110010110011101
大家可以看得出來,相似的文本只有部分 01 串變化了,而普通的hashcode卻不能做到,這個就是局部敏感哈希的魅力。目前Broder提出的shingling算法和Charikar的simhash算法應該算是業界公認比較好的算法。
在simhash的發明人Charikar的論文中並沒有給出具體的simhash算法和證明,“量子圖靈”得出的證明simhash是由隨機超平面hash算法演變而來的。
現在通過這樣的轉換,我們把庫里的文本都轉換為simhash 代碼,並轉換為long類型存儲,空間大大減少。現在我們雖然解決了空間,但是如何計算兩個simhash的相似度呢?難道是比較兩simhash的01有多少個不同嗎?對的,其實也就是這樣,我們通過海明距離(Hamming distance)就可以計算出兩個simhash到底相似不相似。兩個simhash對應二進制(01串)取值不同的數量稱為這兩個simhash的海明距離。舉例如下: 10101 和 00110 從第一位開始依次有第一位、第四、第五位不同,則海明距離為3。對於二進制字符串的a和b,海明距離為等於在a XOR b運算結果中1的個數(普遍算法)。
simhash和普通hash最大的不同在於傳統的hash函數雖然也可以用於映射來比較文本的重復,但是對於可能差距只有一個字節的文檔也會映射成兩個完全不同的哈希結果,而simhash對相似的文本的哈希映射結果也相似。
http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html
http://blog.sina.com.cn/s/blog_81e6c30b0101cpvu.html
權重該如何指派呢?我只知道用TF-IDF算法。
三、算法實現
誰有容易理解的java或者matlab代碼,可以發短消息給我,一起為大家服務。
四、對比其他去重算法
4.1 百度
百度的去重算法最簡單,就是直接找出此文章的最長的n句話,做一遍hash簽名。n一般取3。 工程實現巨簡單,據說准確率和召回率都能到達80%以上。
百度的去重算法沒有這么傻瓜吧?據一個百度鳳巢出來的同事是這么說的。而且我個人覺得簡單不等於傻逼。
4.2 shingle算法
shingle原理略復雜,不細說。 shingle算法我認為過於學院派,對於工程實現不夠友好,速度太慢,基本上無法處理海量數據。
五、問題擴展
問題:一個80億的64-bit指紋組成的集合Q,對於一個給定64-bit的指紋F,如何在a few millionseconds中找到Q中和f至多只有k(k=3)位差別的指紋。
看文獻吧。
我想的是能否借鑒AC自動機一類的算法,來做匹配,只不過匹配規則是海明距離小於3。我說的是優化后的精確匹配了。
http://grunt1223.iteye.com/blog/964564
http://blog.csdn.net/lgnlgn/article/details/6008498
http://blog.sina.com.cn/s/blog_81e6c30b0101cpvu.html
六、意外收獲
1.python的計算能力確實很強,float可以表示任意長度的數字,而對應java、c++只能用其他辦法來實現了,比如java的BigIneteger,對應的位操作也只能利用類方法。。。汗。。。
另外說明,位運算只適合整數哦。。。因為浮點的存儲方案決定不能位運算,如果非要位運算,就需要Float.floatToIntBits,運算完,再通過Float.intBitsToFloat轉化回去。(java默認的float,double的hashcode其實就是對應的floatToIntBits的int值)。
2.百度競價排名系統:鳳巢系統
3.大神關於就業讀研的感觸:http://yanyiwu.com/life/2014/10/11/choices-change-my-life.html
七、編者注
參考文獻是混合交叉的,也就是說,在第1中的參考文獻也可能在第2中引用了,但是第2中未作標注。為什么這么些呢?若是以前把所有的參考文獻直接放在最后,這樣很不方便日后的查找,不過博客園又不想word那樣引用方便,所以就取巧了。
以后的博文,未作生命的也按詞處理。