我是如何用單機實現億級規模題庫去重的?
背景 最近工作中遇到了一個問題:如何對大規模題庫去重?公司經過多年的積累,有着近億道題目的題庫,但是由於題目來源不一導致題庫中有很多重復的題目,這些重復的題目在檢索時,除了增加搜索引擎的計算量外,並 ...
背景 最近工作中遇到了一個問題:如何對大規模題庫去重?公司經過多年的積累,有着近億道題目的題庫,但是由於題目來源不一導致題庫中有很多重復的題目,這些重復的題目在檢索時,除了增加搜索引擎的計算量外,並 ...
首先在處理之前需要明確一個事情,在當前場景下List或者普通數組中的元素如果是自定義對象那么就需要重寫對象的equals方法和hashCode方法。 對於List的處理 方法1,通過Set實現類包 ...