spark的默認url路徑問題:
spark默認從hdfs的當前用戶目錄下讀取數據,即./目錄,可以用/來改為hdfs的根目錄,不用顯式的寫成
'hdfs:///192.168.16.128:9000/xx.csv'
的形式,但前提是在spark-env.sh中配置了hadoop配置文件夾的位置:
export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.10.1/etc/hadoop
如果沒有配置上述環境,會從當前python文件所在的相對目錄查找資源。
想使用本地資源可以如下使用:
'file:/usr/local/data/xxx.csv'