【文章推荐】海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）

原文：海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）

前两天面试面学长问我的这个问题想说TEG的个面试学长都是好和蔼，希望能完成最后一面，各方面原因造成我无比想去鹅场的心已经按捺不住了，这个问题还是建立最小堆比较好一些。先拿个数建堆，然后一次添加剩余元素，如果大于堆顶的数中最小的，将这个数替换堆顶，并调整结构使之仍然是一个最小堆，这样，遍历完后，堆中的个数就是所需的最大的个。建堆时间复杂度是O mlogm ，算法的时间复杂度为O ...

2019-02-15 20:10 2 5644 推荐指数：

查看详情

面试题-10亿个数中找出最大的10000个数（top K问题）

一个较好的方法：先拿出10000个建立小根堆，对于剩下的元素，如果大于堆顶元素的值，删除堆顶元素，再进行插入操作，否则直接跳过，这样知道所有元素遍历完，堆中的10000个就是最大的10000个。时间复杂度: m + (n-1)logm = O(nlogm) 优化的方法：可以把所有10亿个数据分组 ...

利用最小堆找出10亿个数中最大的10000个数

最小堆最小堆是一种完全二叉树，特点是根节点比两个子节点都小（或者根节点比子节点都大）过程先找10000个数构建最小堆依次遍历10亿个数，如果比最小堆的最小值大，则替换这个最小值，并重新构建最小堆最后输入10000个值时间复杂度构建最小堆的复杂度为 logn ...

（算法）从10000个数中找出最大的10个

　　从10000个整数中找出最大的10个，最好的算法是什么？算法一：冒泡排序法　　千里之行，始于足下。我们先不说最好，甚至不说好。我们只问，如何“从10000个整数中找出最大的10个”？我最先想到的是用冒泡排序的办法：我们从头到尾走10趟，自然会把最大的10个数找到。方法简单，就不再这里写 ...

从10亿个数据中，取出前1000个最大的数

采用小顶堆 ...

海量数据处理之top K问题

题目： CVTE笔试题 https://www.1024do.com/?p=3949 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查 ...

1亿个数中找出最小的100个数--最小堆

100亿个数字找出最大的10个

1、首先一点，对于海量数据处理，思路基本上是确定的，必须分块处理，然后再合并起来。 2、对于每一块必须找出10个最大的数，因为第一块中10个最大数中的最小的，可能比第二块中10最大数中的最大的还要大。 3、分块处理，再合并。也就是Google MapReduce 的基本思想。Google ...

如何从100万个数中找出最大的前100个数

1. 算法如下：根据快速排序划分的思想 (1) 递归对所有数据分成[a,b）b（b,d]两个区间，(b,d]区间内的数都是大于[a,b)区间内的数 (2) 对(b,d]重复(1)操作，直到最右边的区间个数小于100个。注意[a,b)区间不用划分 (3) 返回上一个区间，并返回此区间的数字 ...

原文：海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）

相关推荐

相关标签