python3+spark2.1+kafka0.8+sparkStreaming

本文轉載自查看原文 2017-05-01 20:05 4357 python/ spark/ sparkstreaming

python代碼：

import time
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
from operator import add


sc = SparkContext(master="local[1]",appName="PythonSparkStreamingRokidDtSnCount")
ssc = StreamingContext(sc, 2)
zkQuorum = 'localhost:2181'
topic = {'rokid':1}
groupid = "test-consumer-group"
lines = KafkaUtils.createStream(ssc, zkQuorum, groupid, topic)
lines1 = lines.flatMap(lambda x: x.split("\n"))
valuestr = lines1.map(lambda x: x.value.decode())
valuedict = valuestr.map(lambda x:eval(x))
message = valuedict.map(lambda x: x["message"])
rdd2 = message.map(lambda x: (time.strftime("%Y-%m-%d",time.localtime(float(x.split("\u0001")[0].split("\u0002")[1])/1000))+"|"+x.split("\u0001")[1].split("\u0002")[1],1)).map(lambda x: (x[0],x[1]))
rdd3 = rdd2.reduceByKey(add)
rdd3.saveAsTextFiles("/tmp/wordcount")
rdd3.pprint()
ssc.start()
ssc.awaitTermination()

執行SparkStreaming：

spark/bin/spark-submit --jars spark-streaming-kafka-0-8-assembly_2.11-2.1.0.jar ReadFromKafkaStreaming.py

其中spark-streaming-kafka-0.98-assembly_2.11-2.1.0.jar從以下網站下載
http://search.maven.org

作為入門參考。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Sparkstreaming and Kafka Kafka 0.8 Consumer Rebalance Kafka 0.8協議 SparkStreaming整合Kafka（Offset保存在Hbase上，Spark2.X + kafka0.10.X） SparkStreaming整合Kafka（Offset保存在zookeeper上，Spark2.X + kafka0.10.X） Kafka 0.8 配置參數解析 Python+SparkStreaming+kafka+寫入本地文件案例（可執行） spark streaming + kafka +python Kafka 0.8 Consumer處理邏輯 Kafka 0.8源碼分析—ZookeeperConsumerConnector