原文:大数据量下处理方法的面试题

大数据量下处理方法的面试题 第一部分 十道海量数据处理面试题 海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是 位的,最多有个 个IP。同样可以采用映射的方法,比如模 ,把整个大文件映射为 个小文件,再找出每个小文中出现频率最大的IP 可以采用hash map进行频率统计,然后再找出频率最大的几个 及相应的 ...

2017-10-05 20:40 0 2633 推荐指数:

查看详情

大数据量的算法面试题

作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日说明:本文分为俩部分,第一部分为10道海量数据处理面试题,第二部分为10个海量数据处理方法总结。有任何问题,欢迎交流、指正。出处:http://blog.csdn.net/v_JULY_v。 第一部 ...

Mon May 20 02:46:00 CST 2013 0 7620
大数据量处理的几种方法

bloom-filter 算法 场景:我说的大数据量处理是指同时需要对数据进行检索查询,同时有高并发的增删改操作;记得以前在XX做电力时,几百万条数据,那时一个检索查询可以让你等你分钟; 现在我是想探讨下对大数据量处理,那时我就在想例如腾讯,盛大,动辄数以亿计的帐号,怎么能 ...

Mon Oct 21 23:09:00 CST 2013 0 4245
探讨大数据量处理

bloom-filter 算法 场景:我说的大数据量处理是指同时需要对数据进行检索查询,同时有高并发的增删改操作; 记得以前在XX做电力时,几百万条数据,那时一个检索查询可以让你等你分钟; 现在我是想探讨下对大数据量处理,那时我就在想例如腾讯,盛大,动辄数以亿计的帐号,怎么能 ...

Sun Feb 26 00:57:00 CST 2012 18 23391
大数据面试题总结

面试题总结: 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。 [优点] 支持超大文件 超大文件在这里指的是几百M,几百GB,甚至几TB大小 ...

Wed Nov 22 18:34:00 CST 2017 0 3933
大数据面试题

判断题: 1.如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作。(错误)   分析:  SecondaryNameNode是帮助恢复,而不是替代 S ...

Sat Sep 15 00:34:00 CST 2018 0 1189
苏宁大数据面试题

1. hadoop 使用什么版本,CDH版本号,是5.3.6 。hadoop的版本是2.72,记住cdh的版本号和hadoop版本号不一样。2. flume是单节点采集数据还是多节点采集数据?flume是自定义框架还是用官方提供的框架?官方框架开发中有什么问题 ...

Sun Jun 16 21:13:00 CST 2019 0 515
大数据面试题(一)

一、.hdfs写文件的步骤 答案: (1)client向NameNode申请上传…/xxx.txt文件 (2)NN向client响应可以上传文件 (3)Client向NameNode申请Dat ...

Mon Feb 25 05:57:00 CST 2019 0 624
大数据高频面试题

面试中的问题(重点)** 1. RDD的特性(RDD的解释)1.RDD可以看做是一些列partition所组成的2.RDD之间的依赖关系3.算子是作用在partition之上的4.分区器是作用在kv形式的RDD上5.partition提供的最佳计算位置,利于数据处理的本地化即计算向数据移动 ...

Tue Sep 10 22:40:00 CST 2019 0 368
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM