Spark中直接操作HDFS

本文轉載自查看原文 2018-11-28 16:56 3779 spark

Spark作為一個基於內存的大數據計算框架，可以和hadoop生態的資源調度器和分布式文件存儲系統無縫融合。Spark可以直接操作存儲在HDFS上面的數據：

通過Hadoop方式操作已經存在的文件目錄

val path = new

org.apache.hadoop.fs.Path("hdfs://xxx"); val hdfs = org.apache.hadoop.fs.FileSystem.get( new java.net.URI("hdfs://x", new org.apache.hadoop.conf.Configuration()) ); if(hdfs.exists(path) hdfs.delete(path,false))

通過spark自帶的hadoopconf方式操作已經存在文件目錄　

val hadoopConf = sparkContext.hadoopConfiguration
    val hdfs = org.apache.hadoop.fs.FileSystem.get(hadoopConf)
 if(hdfs.exists(path)){
      //為防止誤刪，禁止遞歸刪除
      hdfs.delete(path,false)
    }

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark中操作hdfs Java之XML操作：從XML中直接獲取數據 Java之XML操作：從XML中直接獲取數據 JAVA中直接用Jdbc就能操作數據庫了，為什么還要用spring框架? Spark學習小記-（4）jupyter連接pyspark操作hdfs及hive scala Spark編程讀取HDFS文件操作,Jackson問題 scala之 spark連接SQL和HIVE/IDEA操作HDFS SparkHiveContext和直接Spark讀取hdfs上文件然后再分析效果區別 nuxtJs中直接使用自帶的@nuxtjs/axios Thymeleaf 在頁面中直接顯示內容