spark的默认url路径问题


spark的默认url路径问题:

spark默认从hdfs的当前用户目录下读取数据,即./目录,可以用/来改为hdfs的根目录,不用显式的写成

'hdfs:///192.168.16.128:9000/xx.csv'

的形式,但前提是在spark-env.sh中配置了hadoop配置文件夹的位置:

export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.10.1/etc/hadoop

如果没有配置上述环境,会从当前python文件所在的相对目录查找资源。

想使用本地资源可以如下使用:

'file:/usr/local/data/xxx.csv'


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM