Spark-shell和Spark-Submit的使用


Spark-shell有两种使用方式:

  • 1:直接Spark-shell

    会启动一个SparkSubmit进程来模拟Spark运行环境,是一个单机版的。

  • 2:Spark-shell --master Spark://hadoop1:7077,hadoop2:7077,hadoop3:7077 --total-executor-cores 5 --executor-memory 5G

    指定任务提交的集群路径在哪里。这就需要提前启动一个真实的Standalone集群。

    可以指定多个master的地址,用逗号隔开。

    如果没有指定--total-executor-cores 5 --executor-memory 5G,那么就会使用集群中所有可用的资源,没一个worker中都会启动executor。

不管哪种方式,只要启动完成后。

  • 1/就初始化了一个SparkContext对象为SC,而在这个对象的源码中,

    • 1.1/就创建一个SparkENV对象,里面创建一个SystemActor。
    • 1.2/接着创建一个两个Actor:ClientActor和DriverActor。

      其中ClientActor就会根据刚刚的--master 来连接指定的集群

      在worker中会创建好那些运行程序的executor了。

  • 2/同时也创建了一个SparkSQl对象,用于SparkSQl操作的。

  • 3/最终会进入一个scala的交互界面中。

    此时可以写通过RDD的transform和action的算子,最终通过action算子调用DAGSchudler对任务进行stage切分,然后通过TaskSchudler调用DriverActor将Stage下发到executor执行。

Spark-Submit的使用

  • 用来提交在IDEA中编写并且打包成jar的包到集群中运行。

  • 具体的提交过程,请看Spark源码分析的任务提交过程。

    Spark-Submit --master spark://hadoop1:7077,hadoop2:7077 --executor-memory 5g --total-executor-cores 10 --class 主类路径 jar包的路径 文件的输入路径 文件的输出路径


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM