原文:(七)Hive的5个面试题

一 求单月访问次数和总访问次数 数据说明 数据字段说明 数据格式 数据准备 创建表 导入数据 验证数据 结果需求 现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数,结果数据格式如下 需求分析 此结果需要根据用户 月份进行分组 先求出当月访问次数 tmp access进行自连接视图 进行比较统计 二 学生课程成绩 说明 需求 求:所有数学课程成绩 大于 语文课程成绩的学生 ...

2019-05-24 10:38 0 605 推荐指数:

查看详情

hive面试题

1. 什么是hive? hive是基于Hadoop的一个数据仓库工具,可以将结构化和半结构化的数据文件映射为一张数据库表, 并提供简单的sql查询功能。 注意: (1)Hive本质是将HDFS转换成MapReduce的任务进行运算,底层由HDFS来提供数据存储。 (2)Hive的元数据存储 ...

Sun Apr 03 06:12:00 CST 2022 0 1254
Hive优化面试题

对待像我这种2年开发经验的同学 一般都会被问到。 在面试中,我们只要简短的介绍就好了。 首先低调一波,我可能懂的比你少,我就简单说说 1.在排序中,我们使用的是sortBy,它是基于索引,效率高于order by 2.我们在分区的时候采用静态分区,静态分区只是读取配置文件,而动态分区需要 ...

Wed Aug 07 05:24:00 CST 2019 0 390
Hive面试题整理(一)

1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆)   1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。   (1)key分布不均匀;   (2)业务数据 ...

Sat Oct 23 19:04:00 CST 2021 0 790
Hive 常见面试题(一)

面试题hive 内部表和外部表的区别? hive 是如何实现分区的? Hive 有哪些方式保存元数据,各有哪些优缺点? hive中order by、distribute by、sort by和cluster by的区别和联系 hive 中的压缩格式 RCFile ...

Mon Aug 17 10:36:00 CST 2020 0 7699
Hive五道经典面试题

第 1 题 连续问题   如下数据为蚂蚁森林中用户领取的减少碳排放量   找出连续 3 天及以上减少碳排放量在 100 以上的用户 第 2 题 分组问题   如下为电商公司用户访 ...

Fri Aug 20 05:30:00 CST 2021 0 189
hive面试题(免费拿走不谢)

Hive 最常见的几个面试题 1.hive 的使用, 内外部表的区别,分区作用, UDF 和 Hive 优化(1)hive 使用:仓库、工具(2)hive 内部表:加载数据到 hive 所在的 hdfs 目录,删除时,元数据和数据文件都删除    外部表:不加载数据到 hive 所在的 hdfs ...

Mon Jul 16 23:47:00 CST 2018 0 9297
一道hive SQL面试题

一、hive中实现方法 基表: 组表: gt gid gname 1001 g1 1002 g2 ...

Wed Sep 27 21:04:00 CST 2017 0 4490
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM