pyspark讀取hdfs 二進制文件

本文轉載自查看原文 2019-07-11 19:55 996 spark

程序如下：

from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("My test App")
sc = SparkContext(conf=conf)

"""
lines = sc.textFile("/tmp/tmp.txt")
print lines.count()
print lines.first()
"""    
	
def load_model(sc, model_filename):
        rdd = sc.binaryFiles("/tmp/test.pkl")
        import pickle
        from io import BytesIO
        data_arr = rdd.values().map(lambda p: pickle.load(BytesIO(p))).collect()
        print(data_arr)


load_model(sc, None)

　　其中，test.pkl：

a = {'xx': 999, 'hi': 1223}

>>> f2=open("test.pkl", "wb")
>>> pk.dump(a, f)
>>> f.close()
>>> f2=open("test.pkl", "rb")
>>> pk.load(f2)
{'xx': 999, 'hi': 1223}
>>>

上傳到hdfs:

dfs -put test.pkl /tmp/

然后pyspark里運行上述代碼：

結果輸出：

>>> load_model(sc, None)
[{'xx': 999, 'hi': 1223}]
>>> load_model(sc, None)
[{'xx': 999, 'hi': 1223}]

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 php 讀取二進制文件 Python讀取二進制文件 MFC二進制文件讀取【JAVA】IO FileInputStream 讀取二進制文件【LabVIEW】二進制文件的存儲與讀取方法 python讀取二進制文件寫入到txt python寫入二進制文件 python 獲取二進制文件 json傳二進制文件(轉) java讀寫二進制文件