spark 任務導致tmp目錄過大


現象:hdp的集群沒有配置spak的臨時本地目錄,默認在跑程序的時候會將中間過程的文件存放在本地的/tmp目錄下

如果跑的spark數據量過大,就會導致/tmp下文件過大,最終導致根分區被占滿,系統崩潰

解決辦吧:修改spark的環境變量配置文件,在ambari界面上找到spark-env.sh的配置文件,添加參數

export SPARK_LOCAL_DIRS=spark.local.dir /disk1/sparktmp,/disk2/sparktmp

參考文檔:https://blog.csdn.net/BDCHome/article/details/45396979

修改成功后,重新啟動spark程序,然后再次測試


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM