基於hash的文檔判重——simhash 本文環境: python3.5 ubuntu 16.04 第三方庫: jieba 文件寄於github: https://github.com/w3928072 ...