spark的默认url路径问题:
spark默认从hdfs的当前用户目录下读取数据,即./目录,可以用/来改为hdfs的根目录,不用显式的写成
'hdfs:///192.168.16.128:9000/xx.csv'
的形式,但前提是在spark-env.sh中配置了hadoop配置文件夹的位置:
export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.10.1/etc/hadoop
如果没有配置上述环境,会从当前python文件所在的相对目录查找资源。
想使用本地资源可以如下使用:
'file:/usr/local/data/xxx.csv'