使用pyspark进行spark-submit


前言

实验环境:

1.pyspark 1.5.0
2.python 2.7

本次主要写的是用pyspark提交任务时,需要注意的地方及遇到的问题的解决。


Step 1. 提交python工程

在提交spark的时候,我们往往python工程是多个python文件,彼此之间有调用关系。
那如何提交python工程呢?
./bin/spark-submit –py-files XXXX.zip aaa.py即可

XXXX是你将你所有需要用到的python文件打包成一个zip文件
aaa是你的python文件的main函数所在的py文件。


Step 2. python 版本问题不一致

提交以后,我遇到了cannot different version python 2.6 in driver and python 2.7….
大概是这样的错误,是说不同节点的python版本不一致,导致的运行错误。
解决方法:

import os
os.environ['PYTHONPATH']='python2'

Step 3. 提交任务以后,遇到ascii编码问题

其实我们是想要utf-8默认运行python的,但是就算你在文件里指定了

#coding:utf-8

依然没用。
解决方法:

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

原文:https://blog.csdn.net/bra_ve/article/details/79590679


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM