原文:海量数据处理 - 10亿个数中找出最大的10000个数(top K问题)

前两天面试 面学长问我的这个问题 想说TEG的 个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅场的心已经按捺不住了 ,这个问题还是建立最小堆比较好一些。 先拿 个数建堆,然后一次添加剩余元素,如果大于堆顶的数 中最小的 ,将这个数替换堆顶,并调整结构使之仍然是一个最小堆,这样,遍历完后,堆中的 个数就是所需的最大的 个。建堆时间复杂度是O mlogm ,算法的时间复杂度为O ...

2019-02-15 20:10 2 5644 推荐指数:

查看详情

面试题-10亿个数找出最大10000个数top K问题

一个较好的方法:先拿出10000个建立小根堆,对于剩下的元素,如果大于堆顶元素的值,删除堆顶元素,再进行插入操作,否则直接跳过,这样知道所有元素遍历完,堆10000个就是最大10000个。时间复杂度: m + (n-1)logm = O(nlogm) 优化的方法:可以把所有10亿个数据分组 ...

Fri Mar 06 04:19:00 CST 2020 0 1808
利用最小堆找出10亿个数最大10000个数

最小堆 最小堆是一种完全二叉树,特点是根节点比两个子节点都小(或者根节点比子节点都大) 过程 先找10000个数构建最小堆 依次遍历10亿个数,如果比最小堆的最小值大,则替换这个最小值,并重新构建最小堆 最后输入10000个值 时间复杂度 构建最小堆的复杂度为 logn ...

Tue May 01 18:53:00 CST 2018 0 2403
(算法)从10000个数找出最大10

  从10000个整数找出最大10个,最好的算法是什么? 算法一:冒泡排序法   千里之行,始于足下。我们先不说最好,甚至不说好。我们只问,如何“从10000个整数找出最大10个”?我最先想到的是用冒泡排序的办法:我们从头到尾走10趟,自然会把最大10个数找到。方法简单,就不再这里写 ...

Thu Mar 21 05:10:00 CST 2013 10 19235
海量数据处理top K问题

题目: CVTE笔试题 https://www.1024do.com/?p=3949 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查 ...

Tue Apr 24 17:53:00 CST 2018 0 2449
100亿个数找出最大10

1、首先一点,对于海量数据处理,思路基本上是确定的,必须分块处理,然后再合并起来。 2、对于每一块必须找出10最大,因为第一块10最大的最小的,可能比第二块10最大最大的还要大。 3、分块处理,再合并。也就是Google MapReduce 的基本思想。Google ...

Sun Mar 02 23:58:00 CST 2014 2 13785
如何从100万个数找出最大的前100个数

1. 算法如下:根据快速排序划分的思想 (1) 递归对所有数据分成[a,b)b(b,d]两个区间,(b,d]区间内的都是大于[a,b)区间内的 (2) 对(b,d]重复(1)操作,直到最右边的区间个数小于100个。注意[a,b)区间不用划分 (3) 返回上一个区间,并返回此区间的数字 ...

Mon Apr 02 08:12:00 CST 2018 0 1257
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM