基於Livy的Spark提交平台搭建與開發


  為了方便使用Spark的同學提交任務以及加強任務管理等原因,經調研采用Livy比較靠譜,下圖大致羅列一下幾種提交平台的差別。

 

  本文會以基於mac的單機環境搭建一套Spark+Livy+Hadoop來展示如何提交任務運行,本文只針對框架能夠運行起來,至於各個組件參數怎么配置性能更好,各位兄弟就自行找度娘了。

一.搭建Spark

    訪問http://spark.apache.org/downloads.html下載安裝包,然后按照以下步驟操作即可。

1.下載完成后解壓到某個目錄下,在該目錄執行以下命令

    tar zxvf spark-2.1.0-hadoop2.7.tgz

2.配置Spark環境變量

    Mac環境變量一般在/etc/profile下配置,打開profile文件在文件中添加。

    #SPARK VARIABLES START

    export SPARK_HOME =/usr/local/spark-2.1.0-hadoop2.7

    export PATH = ${PATH}:${SPARK_HOME}/bin

    #SPARK VARIABLES END

3.配置Java環境

    同樣在/etc/profile下配置。在此之前已經安裝scala和jdk相關環境。將java安裝目錄添加到里面export JAVA_HOME =/Library/java/javaVirtualMachines/jdk1.8.0_111.jdk/COntents/Home 設置完成后,保存退出,最后使用source /etc/profile 使環境變量生效。

4.執行sbin/start-all.sh,啟動spark

5.測試

 打開終端,輸入pyspark,出現下面的畫面即表示安裝成功。

 

 

二.Livy安裝

1.去https://www.apache.org/dyn/closer.lua/incubator/livy/0.6.0-incubating/apache-livy-0.6.0-incubating-bin.zip下載安裝包。

2.解壓安裝包,並且編輯livy.conf,添加紅框中的參數即可。

 

 

然后編輯livy-env.sh,添加Spark的安裝目錄配置。

 

 

3.最后bin/livy-server start啟動Livy即可

 

 

三.Hadoop安裝

1.去https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/下載安裝包,並解壓

2.修改各種配置,vim core-site.xml,修改為

 

 修改hdfs-site.xml為

 

3.配置環境變量

export HADOOP_HOME=/User/deploy/software/hadoop/hadoop-2.8.5

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_COMMON_LIB_NATIVE_DIR"

export  HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

4.格式化節點

 

5.執行sbin/start-all.sh啟動Hadoop,出現以下界面說明安裝成功

yarn和hadoop安裝是一體的,訪問判斷yarn是否安裝成功

 

6.如果datanode沒有啟動成功,就去配置的NameNode下的current/VERSION中的clusterID復制到DataNode下的VERSION即可。

四.開發代碼提交任務

    通過上面的步驟基礎環境就已經搭建好,接着就是開發接口提交任務。部分代碼截圖如下:

 

 

 

 

 

 五.關注公眾號獲取源碼

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM