不多說,直接上干貨!
福利 => 每天都推送
問題詳情
每次提交spark任務到yarn的時候,總會出現uploading resource(打包spark jars並上傳)到hdfs上。惡劣情況下,會在這里卡住很久。

17/01/13 17:21:47 INFO Client: Preparing resources for our AM container 17/01/13 17:21:47 WARN Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploadi ng libraries under SPARK_HOME. 17/01/13 17:21:58 INFO Client: Uploading resource file:/tmp/spark-28ebde0d-c77a-4be3-8248-a6d3bcccc253/__spar k_libs__7542776655448713545.zip -> hdfs://dipperCluster/user/hadoop/.sparkStaging/application_1484215273436_0 050/__spark_libs__7542776655448713545.zip 17/01/13 17:22:08 INFO Client: Uploading resource file:/tmp/spark-28ebde0d-c77a-4be3-8248-a6d3bcccc253/__spar k_conf__8972755978315292177.zip -> hdfs://dipperCluster/user/hadoop/.sparkStaging/application_1484215273436_0 050/__spark_conf__.zip
其實可以發現,上圖中,已經有提示了,說被棄用了。
解決辦法1
在hdfs上創建目錄:
hdfs dfs -mkdir /home/hadoop/spark_jars
上傳spark的jars(spark1.6 只需要上傳spark-assembly-1.6.0-SNAPSHOT-hadoop2.6.0.jar)
hdfs dfs -put /opt/spark/jars/* /home/hadoop/spark_jars/
在spark的conf的spark-default.conf ,添加如下的配置
spark.yarn.jars=hdfs://master:9000/opt/spark/jars/* /home/hadoop/spark_jars/

即可解決。不會出現這個問題。
當,再次啟動時,則
Source and destination file systems are the same. Not copying hdfs://master:9000/home/hadoop/spark_jars/zookeeper-3.4.6.jar
之后快速開始提交任務,啟動任務。
解決辦法2
其實啊,說白了,就是spark2.1.0或spark2.2.0以上的版本的命令有所變化。所以壓根可以需改動解決辦法1所示的配置,直接用官網這樣的命令來操作就可以了。
http://spark.apache.org/docs/latest/running-on-yarn.html

同時,大家可以關注我的個人博客:
http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/ http://www.cnblogs.com/sunnyDream/
詳情請見:http://www.cnblogs.com/zlslch/p/7473861.html
人生苦短,我願分享。本公眾號將秉持活到老學到老學習無休止的交流分享開源精神,匯聚於互聯網和個人學習工作的精華干貨知識,一切來於互聯網,反饋回互聯網。
目前研究領域:大數據、機器學習、深度學習、人工智能、數據挖掘、數據分析。 語言涉及:Java、Scala、Python、Shell、Linux等 。同時還涉及平常所使用的手機、電腦和互聯網上的使用技巧、問題和實用軟件。 只要你一直關注和呆在群里,每天必須有收獲
對應本平台的討論和答疑QQ群:大數據和人工智能躺過的坑(總群)(161156071)







打開百度App,掃碼,精彩文章每天更新!歡迎關注我的百家號: 九月哥快訊


