Linux 1、使用 linux 命令从字符串 apple@163.com 中提取 apple 2、将 apple@163.com 替换为 apple@qq.com 3、配置crontab 定时调度,每小时10分执行 /data/checklog.sh 脚本 数据库 1、Oracle 数据 ...
面试总结: HDFS小文件 小文件的产生原因 数据本身的特点:比如我们在 HDFS 上存储大量的图片 短视频 短音频等文件,这些文件本身较小,达不到一个block的大小,而且数量众多。 MapReduce产生:例如使用查询一张含有海量数据的表,然后存储在另外一张表中,而这个查询只有简单的过滤条件 比如 select from iteblog where from hadoop ,这种情况只会启动大 ...
2020-08-29 15:29 0 724 推荐指数:
Linux 1、使用 linux 命令从字符串 apple@163.com 中提取 apple 2、将 apple@163.com 替换为 apple@qq.com 3、配置crontab 定时调度,每小时10分执行 /data/checklog.sh 脚本 数据库 1、Oracle 数据 ...
1. 下列哪项通常是集群的最主要瓶颈(C) A. CPU B. 网络 C. 磁盘IO D. 内存 2. 下列哪项可以作为集群的管理工具?(C) A.Puppet B.Pdsh C.Cl ...
某公司面试题: 1、阐述数据库的三大范式? 2、Linux 自带的常用命令举例至少20个? 3、Spark 有哪些聚合类的算子,我们应该尽量避免什么类型的算子? 4、Hive 和 HBase 的区别? 5、你了解设计模式吗?写出你知道的设计模式。 6、常见的GC算法 ...
面试题总结: 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。 [优点] 支持超大文件 超大文件在这里指的是几百M,几百GB,甚至几TB大小 ...
判断题: 1.如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作。(错误) 分析: SecondaryNameNode是帮助恢复,而不是替代 S ...
1. hadoop 使用什么版本,CDH版本号,是5.3.6 。hadoop的版本是2.72,记住cdh的版本号和hadoop版本号不一样。2. flume是单节点采集数据还是多节点采集数据?flume是自定义框架还是用官方提供的框架?官方框架开发中有什么问题 ...
一、.hdfs写文件的步骤 答案: (1)client向NameNode申请上传…/xxx.txt文件 (2)NN向client响应可以上传文件 (3)Client向NameNode申请Dat ...
面试中的问题(重点)** 1. RDD的特性(RDD的解释)1.RDD可以看做是一些列partition所组成的2.RDD之间的依赖关系3.算子是作用在partition之上的4.分区器是作用在kv形式的RDD上5.partition提供的最佳计算位置,利于数据处理的本地化即计算向数据移动 ...