前言
實驗環境:
1.pyspark 1.5.0
2.python 2.7
本次主要寫的是用pyspark提交任務時,需要注意的地方及遇到的問題的解決。
Step 1. 提交python工程
在提交spark的時候,我們往往python工程是多個python文件,彼此之間有調用關系。
那如何提交python工程呢?
./bin/spark-submit –py-files XXXX.zip aaa.py即可
XXXX是你將你所有需要用到的python文件打包成一個zip文件
aaa是你的python文件的main函數所在的py文件。
Step 2. python 版本問題不一致
提交以后,我遇到了cannot different version python 2.6 in driver and python 2.7….
大概是這樣的錯誤,是說不同節點的python版本不一致,導致的運行錯誤。
解決方法:
import os
os.environ['PYTHONPATH']='python2'
Step 3. 提交任務以后,遇到ascii編碼問題
其實我們是想要utf-8默認運行python的,但是就算你在文件里指定了
#coding:utf-8
依然沒用。
解決方法:
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
原文:https://blog.csdn.net/bra_ve/article/details/79590679