1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url ...
Hash表算法处理海量数据处理面试题 主要针对遇到的海量数据处理问题进行分析,参考互联网上的面试题及相关处理方法,归纳为三种问题 数据量大,内存小情况处理方式 分而治之 Hash映射 判断元素是否在集合中 布隆过滤器 BitMap 各种TOPN 存储和各种排序 经典问题分析 上千万or亿数据 有重复 ,统计其中出现次数最多的前N个数据,分两种情况:可一次读入内存,不可一次读入。 可用思路:trie ...
2017-12-26 00:04 0 2659 推荐指数:
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url ...
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找 ...
第 1 题:请设计一个攻击服务器的策略 难度:阿里p5 ~ p7、腾讯t21 ~ t31 提供几个常见的策略 前段时间很火的一个例子,伪造虚假npm包 + nodejs版本的pa ...
1. Java中的泛型是什么 ? 使用泛型的好处是什么? 这是在各种Java泛型面试中,一开场你就会被问到的问题中的一个,主要集中在初级和中级面试中。那些拥有Java1.4或更早版本的开发背景的人 都知道,在集合中存储对象并在使用前进行类型转换是多么的不方便。泛型防止了那种情况的发生。它提供 ...
1. 海量数据处理常用数据结构 数据结构: 【Bloom Filter】 它实际上是一个很长的二进制向量和一系列随机映射函数 布隆过滤器可以用于检索一个元素是否在一个集合中 它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难 ...
背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽 ...
无私分享两道百度作业帮的测试开发面试题!整理不易,请给赞~ 【第一题】一共有二十五匹马,五个赛道,每个赛道每次只能跑一匹马。问:最少多少次能选出3匹最快的马?(不能记录每匹马跑完全程所用的时间,只能通过比较谁先到达终点来判断两匹马的孰快孰慢) 思路如下: 1、前五次:25匹马,分成5组,每组 ...
29.栈的push、pop序列 题目:输入两个整数序列。其中一个序列表示栈的push顺序, 判断另一个序列有没有可能是对应的pop顺序。 为了简单起见,我们假设push ...