基于hash的文档判重——simhash 本文环境: python3.5 ubuntu 16.04 第三方库: jieba 文件寄于github: https://github.com/w3928072 ...