pyspark读取hdfs 二进制文件

本文转载自查看原文 2019-07-11 19:55 996 spark

程序如下：

from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("My test App")
sc = SparkContext(conf=conf)

"""
lines = sc.textFile("/tmp/tmp.txt")
print lines.count()
print lines.first()
"""    
	
def load_model(sc, model_filename):
        rdd = sc.binaryFiles("/tmp/test.pkl")
        import pickle
        from io import BytesIO
        data_arr = rdd.values().map(lambda p: pickle.load(BytesIO(p))).collect()
        print(data_arr)


load_model(sc, None)

　　其中，test.pkl：

a = {'xx': 999, 'hi': 1223}

>>> f2=open("test.pkl", "wb")
>>> pk.dump(a, f)
>>> f.close()
>>> f2=open("test.pkl", "rb")
>>> pk.load(f2)
{'xx': 999, 'hi': 1223}
>>>

上传到hdfs:

dfs -put test.pkl /tmp/

然后pyspark里运行上述代码：

结果输出：

>>> load_model(sc, None)
[{'xx': 999, 'hi': 1223}]
>>> load_model(sc, None)
[{'xx': 999, 'hi': 1223}]

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 php 读取二进制文件 Python读取二进制文件 MFC二进制文件读取【JAVA】IO FileInputStream 读取二进制文件【LabVIEW】二进制文件的存储与读取方法 python读取二进制文件写入到txt python写入二进制文件 python 获取二进制文件 json传二进制文件(转) java读写二进制文件