delta lake minio+dremio 集成試用

本文轉載自查看原文 2021-06-24 20:38 227 sql 查詢引擎/ 數據分析/ 雲運維&&雲架構/ 數據虛擬化/ dremio/ 數據集成/ 大數據

參考集成模式

環境准備

基於docker 運行

spark 環境准備

 
                 docker run -it -p 8080:8080 datamechanics/spark:jvm-only-3.1-latest sh 
                
                 // 啟動master 
                
                  /opt/spark/sbin/start-master.sh 
                
                 // 啟動worker 
                
                 ./start-worker.sh spark://bbc0225c7aee:7077

效果

minio 准備

很簡單，也是基於容器部署的

spark 集成delta lake 以及minio s3

運行命令

 
                 ./spark-shell \ 
                
                 --packages io.delta:delta-core_2.12:1.0.0,org.apache.hadoop:hadoop-aws:3.2.0 \ 
                
                 --conf "spark.hadoop.fs.s3a.access.key=<access-key>" \ 
                
                 --conf "spark.hadoop.fs.s3a.secret.key=<secret>" \ 
                
                 --conf "spark.hadoop.fs.s3a.endpoint=<minio-endpoint>" \ 
                
                 --conf "spark.databricks.delta.retentionDurationCheck.enabled=false" \ 
                
                 --conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension" \ 
                
                 --conf "spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog"

創建delta lake table
直接可以運行官方demo

 
               spark.range(50000000).write.format("delta").save("s3a://delta-lake/firstdemo") 
              

s3 效果

dremio 集成

添加s3 data lake 數據源

數據查詢

dremio 可以自動發現delta lake 的數據格式，但是需要開啟，默認16.1 直接開啟了

說明

以上只是簡單的將各個組件集成在一起，基於delta lake + minio+ dremio 的數據分析模式也是一個很不錯的選擇，可以加速我們的數據查詢處理
dremio 的能力是很強大的，我們可以利用反射能力方便的進行數據加速處理，基於dremio 提供的sql 能力可以方便的進行數據分析，快速的利用數據
湖的能力加速業務處理，同時delta lake 自身也有一些問題（小文件過多以及vacuum，這些問題也都可以很好的解決，官方提供了相關的管理api）

參考資料

https://docs.delta.io/latest/quick-start.html#language-scala
https://www.vertica.com/kb/Vertica_DeltaLake_Technical_Exploration/Content/Partner/Vertica_DeltaLake_Technical_Exploration.htm
https://databricks.com/blog/2019/04/17/running-peta-scale-spark-jobs-on-object-storage-using-s3-select.html
https://www.datamechanics.co/

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Delta Lake apache kyuubi + dremio 集成試用 nocodb minio 集成試用 Delta Lake源碼分析 Kudu、Hudi和Delta Lake的比較 Delta Lake在Soul的應用實踐 Delta Lake基礎操作和原理 Delta Lake基礎操作和原理【詳談 Delta Lake 】系列技術專題之 Streaming（流式計算） minio select api 試用