python想直接讀取hadoop上的文件內容,一番操作,頭發掉了幾根,也沒能解析出來parquet文件類型的文件。
本博文簡單講解一下TEXTFILE文件格式的解析:
需要安裝模塊hdfs
from hdfs.client import Client client = Client("http://bigdata-poc.com:50070") #print(dir(client)) filepath="/user/hive/warehouse/sd.db/test_20191122/20483fa2cdbe722e-bee88ed900000000_920649167_data.0." with client.read(filepath) as fs: content = fs.readline() print(content)
運行結果:
[root@bigdata-poc-shtz-3 json]# python c.py 1zhang
