原文:Hive面试题整理(一)

Hive表关联查询,如何解决数据倾斜的问题 倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀 业务数据本身的特 建表时考虑不周 等原因造成的reduce 上的数据量差异过大。 key分布不均匀 业务数据本身的特性 建表时考虑不周 某些SQL语句本身就有数据倾斜 如何避免:对于key为空产生的数据倾斜,可以对其赋予一个随机值。 解决方案 参数调节: hive. ...

2021-10-23 11:04 0 790 推荐指数:

查看详情

Hive面试题整理(一) ---阿善有用

Hive面试题整理(一) 1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆)   1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。  (1)key分布不均匀 ...

Tue Oct 20 01:34:00 CST 2020 0 445
Hive SQL 优化面试题整理

Hive优化目标 在有限的资源下,执行效率更高 常见问题: 数据倾斜 map数设置 reduce数设置 其他 Hive执行 HQL --> Job --> Map/Reduce 执行计划 explain [extended] hql ...

Tue Aug 18 00:19:00 CST 2020 0 2938
(七)Hive的5个面试题

一、求单月访问次数和总访问次数 1、数据说明 数据字段说明 数据格式 2、数据准备 (1)创建表 (2)导 ...

Fri May 24 18:38:00 CST 2019 0 605
hive面试题

1. 什么是hive? hive是基于Hadoop的一个数据仓库工具,可以将结构化和半结构化的数据文件映射为一张数据库表, 并提供简单的sql查询功能。 注意: (1)Hive本质是将HDFS转换成MapReduce的任务进行运算,底层由HDFS来提供数据存储。 (2)Hive的元数据存储 ...

Sun Apr 03 06:12:00 CST 2022 0 1254
Hive常见面试题整理(更新中)

1.Hive数据倾斜问题。数据倾斜:数据倾斜主要表现在,map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条Key所在的reduce节点 ...

Tue Oct 20 01:16:00 CST 2020 0 908
面试题整理

其他1. 什么是幂等?什么情况下需要考虑幂等?你怎么解决幂等的问题?编程中一个幂等操作的特点是其任意多次执行所产生的影响均与一次执行的影响相同。 Java1. 多个线程同时读写,读线程的数量远远大于 ...

Sat Jun 09 07:48:00 CST 2018 0 1178
Hive优化面试题

对待像我这种2年开发经验的同学 一般都会被问到。 在面试中,我们只要简短的介绍就好了。 首先低调一波,我可能懂的比你少,我就简单说说 1.在排序中,我们使用的是sortBy,它是基于索引,效率高于order by 2.我们在分区的时候采用静态分区,静态分区只是读取配置文件,而动态分区需要 ...

Wed Aug 07 05:24:00 CST 2019 0 390
Flume面试题整理

1、Flume使用场景(☆☆☆☆☆) 线上数据一般主要是落地(存储到磁盘)或者通过socket传输给另外一个系统,这种情况下,你很难推动线上应用或服务去修改接口,实现直接向kafka里写数据,这时候 ...

Sun Nov 14 23:56:00 CST 2021 0 131
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM