Spark作為一個基於內存的大數據計算框架,可以和hadoop生態的資源調度器和分布式文件存儲系統無縫融合。Spark可以直接操作存儲在HDFS上面的數據:
通過Hadoop方式操作已經存在的文件目錄
val path = new
org.apache.hadoop.fs.Path("hdfs://xxx"); val hdfs = org.apache.hadoop.fs.FileSystem.get( new java.net.URI("hdfs://x", new org.apache.hadoop.conf.Configuration()) ); if(hdfs.exists(path) hdfs.delete(path,false))
通過spark自帶的hadoopconf方式操作已經存在文件目錄
val hadoopConf = sparkContext.hadoopConfiguration
val hdfs = org.apache.hadoop.fs.FileSystem.get(hadoopConf)
if(hdfs.exists(path)){
//為防止誤刪,禁止遞歸刪除
hdfs.delete(path,false)
}
