Spark的jar包比較多,如果直接修改spark的jars目錄中的jar可能對用戶造成jar包沖突,也不利於管理,因為可以利用HDFS存儲功能解決jar問題
1、在本地創建zip文件,壓縮jar包
# 進入到spark的jars目錄,在spark的jars目錄下壓縮包
zip spark.zip ./*
2、HDFS上創建存放spark jar目錄
hdfs dfs -mkdir -p /spark-yarn/jars
3、將$SPARK_HOME/jars下的spark.zip包上傳至剛健的HDFS路徑
[hadoop@hadoop jars]$ hdfs dfs -put ./spark.zip /spark-yarn/jars/
4、在spark-defaults.conf中添加(也可以在啟動時候 -conf 指定)
spark.yarn.archive hdfs://ruozedata001:9000/spark-jars/spark.zip
5、查看Spark log
yarn log -applicationID xxx