以下就是一個簡單的整理,核心在數據sql查詢以及支持的聯邦數據處理上
presto
一個通用的sql on anything 工具
apache drill
很不錯的多數據源sql 查詢引擎,schema on fly
dremio
很不錯,從官方文檔看有點對標presto,但是dremio 更強大
apache impala
從實踐上算是一個虛擬數據sql 引擎,但是太復雜,與hadoop 體系集成會比較好
greenplum
greenplum 基本就是一個智能分析+ sql (oltp+olap) 平台,因為可以集成多數據源,而且內置了機器學習
框架 ,我們直接可以基於sql進行數據處理(目前最新版本好像對於pg 的內核支持13了 ,很不錯)
postgres fdw
說postgres fdw 是大數據的虛擬數據sql引擎有點牽強,但是postgres fdw 強大的擴展能力,以及生態,是一個
很不錯的選擇,greenplum對於多數據源的支持基於fdw的
apache pinot
正在孵化的olap 項目,支持類sql 的查詢 ,對於跨數據源的join 推薦通過presto解決
說明
以上是一個簡單的梳理,還有好多其他比較好的平台工具,后邊發現比較好的,補充完善
參考資料
https://prestodb.io/
https://drill.apache.org/
https://www.dremio.com/
https://impala.apache.org/
https://greenplum.org/
https://wiki.postgresql.org/wiki/Foreign_data_wrappers
http://pinot.incubator.apache.org/