spark-submit 提交任務及參數說明

spark-submit 可以提交任務到 spark 集群執行，也可以提交到 hadoop 的 yarn 集群執行。

例子

一個最簡單的例子，部署 spark standalone 模式后，提交到本地執行。

./bin/spark-submit \
--master spark://localhost:7077 \
examples/src/main/python/pi.py

如果部署 hadoop，並且啟動 yarn 后，spark 提交到 yarn 執行的例子如下。

注意，spark 必須編譯成支持 yarn 模式，編譯 spark 的命令為：

build/mvn -Pyarn -Phadoop-2.x -Dhadoop.version=2.x.x -DskipTests clean package

其中, 2.x 為 hadoop 的版本號。編譯完成后，可執行下面的命令，提交任務到 hadoop yarn 集群執行：

./bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
--queue thequeue \
examples/target/scala-2.11/jars/spark-examples*.jar 10

spark-submit 詳細參數說明

參數名	參數說明
--master	master 的地址，提交任務到哪里執行，例如 spark://host:port, yarn, local
--deploy-mode	在本地 (client) 啟動 driver 或在 cluster 上啟動，默認是 client
--class	應用程序的主類，僅針對 java 或 scala 應用
--name	應用程序的名稱
--jars	用逗號分隔的本地 jar 包，設置后，這些 jar 將包含在 driver 和 executor 的 classpath 下
--packages	包含在driver 和executor 的 classpath 中的 jar 的 maven 坐標
--exclude-packages	為了避免沖突而指定不包含的 package
--repositories	遠程 repository
--conf PROP=VALUE	指定 spark 配置屬性的值，例如 -conf spark.executor.extraJavaOptions="-XX:MaxPermSize=256m"
--properties-file	加載的配置文件，默認為 conf/spark-defaults.conf
--driver-memory	Driver內存，默認 1G
--driver-java-options	傳給 driver 的額外的 Java 選項
--driver-library-path	傳給 driver 的額外的庫路徑
--driver-class-path	傳給 driver 的額外的類路徑
--driver-cores	Driver 的核數，默認是1。在 yarn 或者 standalone 下使用
--executor-memory	每個 executor 的內存，默認是1G
--total-executor-cores	所有 executor 總共的核數。僅僅在 mesos 或者 standalone 下使用
--num-executors	啟動的 executor 數量。默認為2。在 yarn 下使用
--executor-core	每個 executor 的核數。在yarn或者standalone下使用

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark-submit 提交任務及參數說明 [轉] spark-submit 提交任務及參數說明 spark-submit 參數說明 spark-submit參數說明--on YARN Spark-submit常用任務命令參數和說明 spark-submit提交任務到yarn錯誤 spark-submit提交參數設置 spark-submit 提交Application spark-submit配置說明 spark-submit參數詳解