Spark中直接操作HDFS

本文转载自查看原文 2018-11-28 16:56 3779 spark

Spark作为一个基于内存的大数据计算框架，可以和hadoop生态的资源调度器和分布式文件存储系统无缝融合。Spark可以直接操作存储在HDFS上面的数据：

通过Hadoop方式操作已经存在的文件目录

val path = new

org.apache.hadoop.fs.Path("hdfs://xxx"); val hdfs = org.apache.hadoop.fs.FileSystem.get( new java.net.URI("hdfs://x", new org.apache.hadoop.conf.Configuration()) ); if(hdfs.exists(path) hdfs.delete(path,false))

通过spark自带的hadoopconf方式操作已经存在文件目录　

val hadoopConf = sparkContext.hadoopConfiguration
    val hdfs = org.apache.hadoop.fs.FileSystem.get(hadoopConf)
 if(hdfs.exists(path)){
      //为防止误删，禁止递归删除
      hdfs.delete(path,false)
    }

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 spark中操作hdfs Java之XML操作：从XML中直接获取数据 Java之XML操作：从XML中直接获取数据 JAVA中直接用Jdbc就能操作数据库了，为什么还要用spring框架? Spark学习小记-（4）jupyter连接pyspark操作hdfs及hive scala Spark编程读取HDFS文件操作,Jackson问题 scala之 spark连接SQL和HIVE/IDEA操作HDFS SparkHiveContext和直接Spark读取hdfs上文件然后再分析效果区别 nuxtJs中直接使用自带的@nuxtjs/axios Thymeleaf 在页面中直接显示内容