一、Spark系統概述
左側是原生Spark的架構圖,右邊Spark on MaxCompute運行在阿里雲自研的Cupid的平台之上,該平台可以原生支持開源社區Yarn所支持的計算框架,如Spark等。
二、Spark運行在客戶端的配置和使用
2.1打開鏈接下載客戶端到本地
2.2將文件上傳的ECS上
2.3將文件解壓
2.4配置Spark-default.conf
2.5在github上下載對應代碼
https://github.com/aliyun/MaxCompute-Spark
2.5將代碼上傳到ECS上進行解壓
2.6將代碼打包成jar包(確保安裝Maven)
2.7查看jar包,並進行運行
三、Spark運行在DataWorks的配置和使用
3.1進入DataWorks控制台界面,點擊業務流程
3.2打開業務流程,創建ODPS Spark節點
3.3上傳jar包資源,點擊對應的jar包上傳,並提交
3.4配置對應ODPS Spark的節點配置點擊保存並提交,點擊運行查看運行狀態
四、Spark在本地idea測試環境的使用
4.1下載客戶端與模板代碼並解壓
模板代碼:
https://github.com/aliyun/MaxCompute-Spark
4.2打開idea,點擊Open選擇模板代碼
4.2安裝Scala插件
4.3配置maven
4.4配置JDK和相關依賴
本文作者:耿江濤
本文為雲棲社區原創內容,未經允許不得轉載。