環境變量 | 含義 |
---|---|
SPARK_MASTER_IP |
master實例綁定的IP地址,例如,綁定到一個公網IP |
SPARK_MASTER_PORT |
mater實例綁定的端口(默認7077) |
SPARK_MASTER_WEBUI_PORT |
master web UI的端口(默認8080) |
SPARK_MASTER_OPTS |
master專用配置屬性,格式如”-Dx=y” (默認空),可能的選項請參考下面的列表。 |
SPARK_LOCAL_DIRS |
Spark的本地工作目錄,包括:映射輸出的臨時文件和RDD保存到磁盤上的臨時數據。這個目錄需要快速訪問,最好設成本地磁盤上的目錄。也可以通過使用逗號分隔列表,將其設成多個磁盤上的不同路徑。 |
SPARK_WORKER_CORES |
本機上Spark應用可以使用的CPU core上限(默認所有CPU core) |
SPARK_WORKER_MEMORY |
本機上Spark應用可以使用的內存上限,如:1000m,2g(默認為本機所有內存減去1GB);注意每個應用單獨使用的內存大小要用 spark.executor.memory 屬性配置的。 |
SPARK_WORKER_PORT |
Spark worker綁定的端口(默認隨機) |
SPARK_WORKER_WEBUI_PORT |
worker web UI端口(默認8081) |
SPARK_WORKER_INSTANCES |
每個slave機器上啟動的worker實例個數(默認:1)。如果你的slave機器非常強勁,可以把這個值設為大於1;相應的,你需要設置SPARK_WORKER_CORES參數來顯式地限制每個worker實例使用的CPU個數,否則每個worker實例都會使用所有的CPU。 |
SPARK_WORKER_DIR |
Spark worker的工作目錄,包括worker的日志以及臨時存儲空間(默認:${SPARK_HOME}/work) |
SPARK_WORKER_OPTS |
worker的專用配置屬性,格式為:”-Dx=y”,可能的選項請參考下面的列表。 |
SPARK_DAEMON_MEMORY |
Spark master和worker后台進程所使用的內存(默認:1g) |
SPARK_DAEMON_JAVA_OPTS |
Spark master和workers后台進程所使用的JVM選項,格式為:”-Dx=y”(默認空) |
SPARK_PUBLIC_DNS |
Spark master和workers使用的公共DNS(默認空) |
注意: 啟動腳本目前不支持Windows。如需在Windows上運行,請手工啟動master和workers。
SPARK_MASTER_OPTS支持以下屬性:
屬性名 | 默認值 | 含義 |
---|---|---|
spark.deploy.retainedApplications |
200 | web UI上最多展示幾個已結束應用。更早的應用的數將被刪除。 |
spark.deploy.retainedDrivers |
200 | web UI上最多展示幾個已結束的驅動器。更早的驅動器進程數據將被刪除。 |
spark.deploy.spreadOut |
true | 獨立部署集群的master是否應該盡可能將應用分布到更多的節點上;設為true,對數據本地性支持較好;設為false,計算會收縮到少數幾台機器上,這對計算密集型任務比較有利。 |
spark.deploy.defaultCores |
(無限制) | Spark獨立模式下應用程序默認使用的CPU個數(沒有設置spark.cores.max的情況下)。如果不設置,則為所有可用CPU個數(除非設置了spark.cores.max)。如果集群是共享的,最好將此值設小一些,以避免用戶占滿整個集群。 |
spark.worker.timeout |
60 | 如果master沒有收到worker的心跳,那么將在這么多秒之后,master將丟棄該worker。 |
SPARK_WORKER_OPTS支持以下屬性:
屬性名 | 默認值 | 含義 |
---|---|---|
spark.worker.cleanup.enabled |
false | 是否定期清理 worker 和應用的工作目錄。注意,該設置僅在獨立模式下有效,YARN有自己的清理方式;同時,只會清理已經結束的應用對應的目錄。 |
spark.worker.cleanup.interval |
1800 (30 minutes) | worker清理本地應用工作目錄的時間間隔(秒) |
spark.worker.cleanup.appDataTtl |
7 * 24 * 3600 (7 days) | 清理多久以前的應用的工作目錄。這個選項值將取決於你的磁盤總量。spark應用會將日志和jar包都放在其對應的工作目錄下。隨着時間流逝,應用的工作目錄很快會占滿磁盤,尤其是在你的應用提交比較頻繁的情況下。 |