Spark在MaxCompute的運行方式


一、Spark系統概述

左側是原生Spark的架構圖,右邊Spark on MaxCompute運行在阿里雲自研的Cupid的平台之上,該平台可以原生支持開源社區Yarn所支持的計算框架,如Spark等。

二、Spark運行在客戶端的配置和使用

2.1打開鏈接下載客戶端到本地

http://odps-repo.oss-cn-hangzhou.aliyuncs.com/spark/2.3.0-odps0.30.0/spark-2.3.0-odps0.30.0.tar.gz?spm=a2c4g.11186623.2.12.666a4b69yO8Qur&file=spark-2.3.0-odps0.30.0.tar.gz

2.2將文件上傳的ECS上

2.3將文件解壓

tar -zxvf spark-2.3.0-odps0.30.0.tar.gz

2.4配置Spark-default.conf

# spark-defaults.conf
# 一般來說默認的template只需要再填上MaxCompute相關的賬號信息就可以使用Spark
spark.hadoop.odps.project.name =
spark.hadoop.odps.access.id =
spark.hadoop.odps.access.key =

# 其他的配置保持自帶值一般就可以了
spark.hadoop.odps.end.point = http://service.cn.maxcompute.aliyun.com/api
spark.hadoop.odps.runtime.end.point = http://service.cn.maxcompute.aliyun-inc.com/api
spark.sql.catalogImplementation=odps
spark.hadoop.odps.task.major.version = cupid_v2
spark.hadoop.odps.cupid.container.image.enable = true
spark.hadoop.odps.cupid.container.vm.engine.type = hyper

2.5在github上下載對應代碼

https://github.com/aliyun/MaxCompute-Spark

2.5將代碼上傳到ECS上進行解壓

unzip MaxCompute-Spark-master.zip

2.6將代碼打包成jar包(確保安裝Maven)

cd MaxCompute-Spark-master/spark-2.x
mvn clean package

2.7查看jar包,並進行運行

bin/spark-submit --master yarn-cluster --class com.aliyun.odps.spark.examples.SparkPi \
MaxCompute-Spark-master/spark-2.x/target/spark-examples_2.11-1.0.0-SNAPSHOT-shaded.jar

三、Spark運行在DataWorks的配置和使用

3.1進入DataWorks控制台界面,點擊業務流程

3.2打開業務流程,創建ODPS Spark節點

3.3上傳jar包資源,點擊對應的jar包上傳,並提交

3.4配置對應ODPS Spark的節點配置點擊保存並提交,點擊運行查看運行狀態

四、Spark在本地idea測試環境的使用

4.1下載客戶端與模板代碼並解壓

客戶端:
http://odps-repo.oss-cn-hangzhou.aliyuncs.com/spark/2.3.0-odps0.30.0/spark-2.3.0-odps0.30.0.tar.gz?spm=a2c4g.11186623.2.12.666a4b69yO8Qur&file=spark-2.3.0-odps0.30.0.tar.gz

模板代碼:

https://github.com/aliyun/MaxCompute-Spark

4.2打開idea,點擊Open選擇模板代碼

4.2安裝Scala插件

4.3配置maven

4.4配置JDK和相關依賴

​​​​​​​

 

本文作者:耿江濤

原文鏈接

本文為雲棲社區原創內容,未經允許不得轉載。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM