花费 5 ms
c#-SimHash匹配相似-算法

使用场景:Google 的 simhash 算法 //通过大量测试,simhash用于比较大文本,比如500字以上效果都还蛮好,距离小于3的基本都是相似,误判率也比较低。 //从我的经验,如果我们假定N是每个块的大小,M是重叠的字符的数目,N = 4和M = 3是最好的选择 ...

Tue Sep 10 06:26:00 CST 2013 2 3566

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM