python 解析Hdfs上的数据文件


python想直接读取hadoop上的文件内容,一番操作,头发掉了几根,也没能解析出来parquet文件类型的文件。

 

本博文简单讲解一下TEXTFILE文件格式的解析:

需要安装模块hdfs

from hdfs.client import Client
client = Client("http://bigdata-poc.com:50070")
#print(dir(client))
filepath="/user/hive/warehouse/sd.db/test_20191122/20483fa2cdbe722e-bee88ed900000000_920649167_data.0."
with client.read(filepath) as fs:    
  content = fs.readline()   
  print(content)    

 

运行结果:

[root@bigdata-poc-shtz-3 json]# python c.py
1zhang

 

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM