目前面试了多家大数据开发工程师,成长了很多,也知道了很多知识,下面和大家分享一下我遇到的面试题和答案。 1.kafka集群的规模,消费速度是多少。 答:一般中小型公司是10个节点,每秒20M左右。 2.hdfs上传文件的流程。 答:这里描述的 是一个256M的文件上传 ...
面试题总结: 分布式文件系统 Distributed File System 是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机 服务器模式。 优点 支持超大文件超大文件在这里指的是几百M,几百GB,甚至几TB大小的文件。 检测和快速应对硬件故障在集群的环境中,硬件故障是常见的问题。因为有上千台服务器连接在一起,这样会导致高故障率 ...
2017-11-22 10:34 0 3933 推荐指数:
目前面试了多家大数据开发工程师,成长了很多,也知道了很多知识,下面和大家分享一下我遇到的面试题和答案。 1.kafka集群的规模,消费速度是多少。 答:一般中小型公司是10个节点,每秒20M左右。 2.hdfs上传文件的流程。 答:这里描述的 是一个256M的文件上传 ...
1. 下列哪项通常是集群的最主要瓶颈(C) A. CPU B. 网络 C. 磁盘IO D. 内存 2. 下列哪项可以作为集群的管理工具?(C) A.Puppet B.Pdsh C.Cl ...
判断题: 1.如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作。(错误) 分析: SecondaryNameNode是帮助恢复,而不是替代 S ...
1. hadoop 使用什么版本,CDH版本号,是5.3.6 。hadoop的版本是2.72,记住cdh的版本号和hadoop版本号不一样。2. flume是单节点采集数据还是多节点采集数据?flume是自定义框架还是用官方提供的框架?官方框架开发中有什么问题 ...
一、.hdfs写文件的步骤 答案: (1)client向NameNode申请上传…/xxx.txt文件 (2)NN向client响应可以上传文件 (3)Client向NameNode申请Dat ...
面试中的问题(重点)** 1. RDD的特性(RDD的解释)1.RDD可以看做是一些列partition所组成的2.RDD之间的依赖关系3.算子是作用在partition之上的4.分区器是作用在kv形式的RDD上5.partition提供的最佳计算位置,利于数据处理的本地化即计算向数据移动 ...
1、fsimage和edit的区别? 2、列举几个配置文件优化? --发挥 3、datanode 首次加入 cluster 的时候 ...
Mapreduce的理解?Mapreduce 的执行原理? 1 Spark工作流程简述 Hadoop 中 job 和 task 之间的区别是什么 hi ...