hadoop+hive+spark搭建(三)


一、spark安裝

     因為之前安裝過hadoop,所以,在“Choose a package type”后面需要選擇“Pre-build with user-provided Hadoop [can use with most Hadoop   distributions]”,然后,點擊“Download Spark”后面的“spark-2.1.0-bin-without-hadoop.tgz”下載即可。Pre-build with user-provided Hadoop:   屬於“Hadoop free”版,這樣,下載到的Spark,可應用到任意Hadoop 版本。  

 

      

  上傳spark軟件包到任意節點上

  解壓縮spark軟件包到/usr/local/目錄下

     

 

  重命名為spark文件夾

     mv  spark-2.1.0-bin-without-hadoop/ spark

  重命名conf/目錄下spark-env.sh.templatespark-env.sh

    cp spark-env.sh.template spark-env.sh

  重命名conf/目錄下slaves.template為slaves

    mv slaves.template slaves 

二、配置spark

   編輯conf/spark-env.sh文件,在第一行添加以下配置信息:

      export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

      #上述表示Spark可以把數據存儲到Hadoop分布式文件系統HDFS中,也可以從HDFS中讀取數據。如果沒有配置上面信息,Spark就只能讀寫本地數據,無法讀寫HDFS數據。

      export JAVA_HOME=/usr/local/jdk64/jdk1.8.0

   編輯conf/slaves文件

      

三、驗證spark是否安裝成功

  在spark目錄中輸入命令驗證spark是否安裝成功

      bin/run-example SparkPi

      bin/run-example SparkPi 2>&1 | grep "Pi is"        #過濾顯示出pi的值

      

 

     web界面為8080端口

     

   集群模式下shell

   pyspark --master spark://master:7077    #python

   提交應用

    spark-submit

      --class <main-class>         #需要運行的程序的主類,應用程序的入口點
      --master <master-url>        #Master URL,下面會有具體解釋
      --deploy-mode <deploy-mode>     #部署模式
      ... # other options           #其他參數
      <application-jar>            #應用程序JAR包
      [application-arguments]        #傳遞給主類的主方法的參數


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM