Hive sql和Presto sql的一些對比

本文轉載自查看原文 2018-01-31 19:30 13714 Presto/ presto

最近由於工作上和生活上的一些事兒好久沒來博客園了，但是寫博客的習慣還是得堅持，新的一年需要更加努力，困知勉行，終身學習,每天都保持空杯心態.廢話不說，寫一些最近使用到的Presto SQL和Hive SQL的體會和對比.

注意這里Presto中json_extract_scalar返回值是一個string類型,其還有一個函數json_extract是直接返回一個json串，所以使用的時候你得自己知道取的到底是一個什么類型的值.

Hive

select student, score from tests lateral view explode(split(scores, ',')) t as score;
Presto

select student, score from tests cross json unnest(split(scores, ',') as t (score);

簡單的講就是將scores字段中以逗號隔開的分數列比如

80,90,99,80

這種單列的值轉換成和student列一對多的行的值映射.

Hive

select origin_state, origin_zip, sum(package_weight) from shipping group by origin_state,origin_zip with rollup;
Presto

select origin_state, origin_zip, sum(package_weight) from shipping group by rollup (origin_state, origin_zip);

用過rollup的都知道，這是從右向左的遞減的多級統計的聚合,等價於(如下為Presto寫法)

select origin_state, origin_zip, sum(package_weight) from shipping group by grouping sets ((origin_state, origin_zip), (origin_state), ());

其他一些語法有細微的差別可以慢慢了解，當然Hive和Presto底層架構不一樣導致Presto比Hive運算速度要快很多,再加上開源的Alluxio緩存更加如虎添翼了.

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hive中一些常用的sql語句 Oracle sql 轉 Hive sql一些語法問題 sql函數split在presto、spark、hive中的不同 Hive:常用的一些命令 java 和 python的一些對比 hive 用戶行為分析（活躍。啟動，留存，回訪，新增）的一些經典sql presto整合hive Hive過濾臟數據的一些經驗 SVM和logistic regression的一些對比 SQL數據分析概覽——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid