impala presto SparkSql性能測試對比

本文轉載自查看原文 2017-05-25 17:13 5053 impala

目標是為測試impala presto SparkSql誰的性能更佳，以下結果底層查詢的都是普通textfile snappy壓縮后數據，規模為15台機器，若以orcfile、parquet速度能快數倍

impala與presto性能相當，SparkSql遜色不少。

目前看presto相比impala

1、與hive實時共享元數據，impala需要用另外定時任務廣播元數據，新生成的數據，用impala不能立即查詢。

2、沒有出現操作大數據集有時掛掉的情況

3、presto與hive都由fackbook開源，兼容性應該會更好點

測試過程比較簡單，分為四個場景sql查詢：

查詢id	查詢語句	數據量(壓縮前)
query1	select sum(pv) from d_op_behavior_host_text_snappy	35G
query2	select siteid,sum(pv) as pv1 from d_op_behavior_host_text_snappy where pv>0 group by siteid order by pv1 desc limit 11;	35G
query3	select count(*) from dwd.d_ad_3rd_party_fancy_all_data where thisdate='2015-11-10' and hour='17';	200G
query4	select count(*) from dwd.d_ad_impression where thisdate>='2015-09-01' and thisdate<='2015-10-31'

測試結果對比如下：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hive、Sparksql、Presto、Impala、Hawq、Clickhouse、Greenplum大數據查詢引擎對比（轉） impala和presto Kylin、druid、presto、impala四種即席查詢對比 sparkSQL flinkSQL hiveSQL性能對比 Impala 5、Impala 性能優化最詳細的CentOS 6與7對比（三）：性能測試對比 presto .vs impala .vs HAWQ query engine 【原創】大數據基礎之Benchmark（4）TPC-DS測試結果（hive/hive on spark/spark sql/impala/presto） Redis和Memcache性能測試對比性能測試誤差對比研究（一）