1 测试集群

内存：256G
CPU：32Core （Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz）
Disk（系统盘）：300G
Disk（数据盘）：1.5T*1

2 测试数据

hive-2.3.4 【set mapreduce.map.memory.mb=4096; set mapreduce.map.java.opts=-Xmx3072m;】【yarn 200g*3】
hive-2.3.4 on spark-2.4.0 【--master yarn --driver-memory 4g --num-executors 10 --executor-memory 4g】
spark-2.4.0 【--master yarn --driver-memory 4g --num-executors 10 --executor-memory 4g】
impala-2.12 【MEM_LIMIT=20gb * 3】

默认配置，未经优化；

ps：0 means 执行失败

ps：0 means 执行失败

可见：

hive orc相比parquet性能提升22%；
spark parquet相比orc性能提升36%；

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 【原创】大数据基础之Benchmark（1）HiBench 数据库基准测试标准 TPC-C or TPC-H or TPC-DS tpc-ds doris性能测试【TPC-DS】99条查询SQL 【原创】大数据基础之Presto（1）简介、安装、使用 Hive、Sparksql、Presto、Impala、Hawq、Clickhouse、Greenplum大数据查询引擎对比（转）大数据之presto Presto?还是 Hive? 你们知道大数据查询性能谁更强吗? 【TPC-DS】测试脚本存放目录、测试流程、测试结果衡量指标的计算方式讲解【原创】大数据基础之Spark（2）Spark on Yarn：container memory allocation容器内存分配