【大數據】PySpark 使用 FileSystem 操作 HDFS

本文轉載自查看原文 2021-12-26 21:47 962 Pyspark/ 每日一技

需求：spark 可以直接使用 textFile 讀取 HDFS，但是不能判斷 hdfs 文件是否存在，不過 pyspark 可以調用 java 程序，因此可以調用 FileSystem來實現：

# coding=utf-8

from pyspark import SparkContext

sc = SparkContext(appName="check_hdfs_exists")
jvm = sc._jvm
log4jLogger = jvm.org.apache.log4j
logger = log4jLogger.LogManager.getLogger(__name__)

config = jvm.org.apache.hadoop.conf.Configuration()
file_system = jvm.org.apache.hadoop.fs.File.System.get(config)

path = jvm.org.apache.hadoop.fs.Path("hdfs://hacluster/xxxxx")
path_is_exists = file_system.exists(path)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 網易大數據之數據存儲：HDFS 大數據系列之Flume+HDFS 大數據Hadoop原理介紹+安裝+實戰操作（HDFS+YARN+MapReduce） Hadoop之HDFS的FileSystem類的使用大數據3-Flume收集數據+落地HDFS 從 RAID 到 Hadoop Hdfs 『大數據存儲的進化史』大數據系列1：一文初識Hdfs Hadoop大數據平台入門——HDFS和MapReduce 大數據學習之五——HDFS常用命令【原創】大數據基礎之HDFS（1）HDFS新創建文件如何分配Datanode