原文:我是如何用单机实现亿级规模题库去重的?

背景 最近工作中遇到了一个问题:如何对大规模题库去重 公司经过多年的积累,有着近亿道题目的题库,但是由于题目来源不一导致题库中有很多重复的题目,这些重复的题目在检索时,除了增加搜索引擎的计算量外,并不会提高准确率。此外由于题目过多,搜索引擎往往采取了截断策略,只对一部分题目进行计算,这导致了某些正确的题目反而得不到计算,拍搜准确率甚至不增反降。所以对于一个搜索引擎来说,虽然初期增加题目数量往往可以 ...

2018-02-09 18:10 19 6616 推荐指数:

查看详情

亿规模的Elasticsearch优化实战

Elasticsearch 的基本信息大致如图所示,这里就不具体介绍了。 本次分享主要包含两个方面的实战经验:索引性能和查询性能。 一. 索引性能(Index Performance) ...

Fri Aug 14 21:41:00 CST 2015 1 2540
亿规模的Elasticsearch优化实战

本次分享主要包含两个方面的实战经验:索引性能和查询性能。 一. 索引性能(Index Performance) 首先要考虑的是,索引性能是否有必要 ...

Sun May 05 23:44:00 CST 2019 0 1088
亿规模的Elasticsearch优化实战

亿规模的Elasticsearch优化实战 Elasticsearch 的基本信息大致如图所示,这里就不具体介绍了。 本次分享主要包含两个方面的实战经验:索引性能和查询性能。 一. 索引性能(Index Performance) 首先要考虑的是,索引性能 ...

Fri Nov 25 00:56:00 CST 2016 0 4723
亿Web系统搭建——单机到分布式集群

当一个Web系统从日访问量10万逐步增长到1000万,甚至超过1亿的过程中,Web系统承受的压力会越来越大,在这个过程中,我们会遇到很多的问题。为了解决这些性能压力带来问题,我们需要在Web系统架构层面搭建多个层次的缓存机制。在不同的压力阶段,我们会遇到不同的问题,通过搭建不同的服务和架构来解决 ...

Thu Jul 21 19:05:00 CST 2016 8 4707
亿流量实验平台设计与实现

大家好,我是雨乐。今天给大家分享一款亿流量实验平台。 在互联网行业,要上线一个策略(CTR预估、CVR预估等),或者一个功能,如果贸然全量上线,那么如果新策略效果不佳,可能会造成不小的损失,要么丢失用户,要么损失收入。 那么怎样才能避免此问题发生呢?这就引入了实验平台,通过对流量打标签,然后分 ...

Tue Oct 19 18:25:00 CST 2021 3 861
Flink+Hologres亿用户实时UV精确去重最佳实践

简介: Flink+Hologres亿用户实时UV精确去重最佳实践 UV、PV计算,因为业务需求不同,通常会分为两种场景: 离线计算场景:以T+1为主,计算历史数据 ...

Mon Jun 28 23:35:00 CST 2021 0 200
巧用 Bitmap 实现亿海量数据统计

,我们面临的用户数量以及访问量都是巨大的,比如百万、千万级别的用户数量,或者千万级别、甚至亿别的访问信息。 ...

Thu Jun 24 00:23:00 CST 2021 0 176
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM