使用pyspark進行spark-submit


前言

實驗環境:

1.pyspark 1.5.0
2.python 2.7

本次主要寫的是用pyspark提交任務時,需要注意的地方及遇到的問題的解決。


Step 1. 提交python工程

在提交spark的時候,我們往往python工程是多個python文件,彼此之間有調用關系。
那如何提交python工程呢?
./bin/spark-submit –py-files XXXX.zip aaa.py即可

XXXX是你將你所有需要用到的python文件打包成一個zip文件
aaa是你的python文件的main函數所在的py文件。


Step 2. python 版本問題不一致

提交以后,我遇到了cannot different version python 2.6 in driver and python 2.7….
大概是這樣的錯誤,是說不同節點的python版本不一致,導致的運行錯誤。
解決方法:

import os
os.environ['PYTHONPATH']='python2'

Step 3. 提交任務以后,遇到ascii編碼問題

其實我們是想要utf-8默認運行python的,但是就算你在文件里指定了

#coding:utf-8

依然沒用。
解決方法:

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

原文:https://blog.csdn.net/bra_ve/article/details/79590679


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM