Spark Streaming 高階消費kafka2.1.0---subscribe

本文轉載自查看原文 2019-06-27 15:18 464

package cn.brent

import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe
import org.apache.spark.streaming.kafka010.KafkaUtils
import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent

object CKafkaToCluster {
　　def main(args: Array[String]): Unit = {
　　　　val conf = new SparkConf().setAppName("ConsumerKafka1")
　　　　val batch = 10
　　　　val ssc = new StreamingContext(conf,Seconds(batch))

　　　　ssc.sparkContext.setLogLevel("warn")

　　　　// 設置檢查點，放在HDFS上
　　　　ssc.checkpoint("checkpoint")
　　　　// Zookeeper服務器地址

　　　　val bstrapServers = "10.253.129.232:9092,10.253.129.233:9092,10.253.129.234:9092,10.253.129.235:9092"
　　　　// topic所在的group，可以設置為其他的名稱

　　　　val kafkaParams = Map[String, Object](
　　　　　　"bootstrap.servers" -> bstrapServers,//kafka.2.1.0
　　　　　　"key.deserializer" -> classOf[StringDeserializer],
　　　　　　"value.deserializer" -> classOf[StringDeserializer],
　　　　　　"group.id" -> "use_a_separate_group_id_for_each_stream",
　　　　　　"auto.offset.reset" -> "latest",
　　　　　　"enable.auto.commit" -> (false: java.lang.Boolean)
　　　　)

　　　　val topics = Array("kafka2Test1")
　　　　val stream = KafkaUtils.createDirectStream[String, String](
　　　　　　ssc,
　　　　　　PreferConsistent,
　　　　　　Subscribe[String, String](topics, kafkaParams)

　　　　)

　　　　val lines = stream.map(item=> item.value())
　　　　val words = lines.flatMap(_.split("\\s+"))
　　　　val pairs = words.map(x => (x,1))
　　　　val wordCounts = pairs.reduceByKey(_+_)
　　　　wordCounts.print

　　　　ssc.start
　　　　ssc.awaitTermination
　　}
}

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark streaming從指定offset處消費Kafka數據 spark streaming + kafka +python 用canal同步binlog到kafka，spark streaming消費kafka topic亂碼問題 Spark Streaming消費Kafka Direct保存offset到Redis，實現數據零丟失和exactly once spark streaming消費kafka數據寫入hdfs避免文件覆蓋方案(java版) kafka broker Leader -1引起spark Streaming不能消費的故障解決方法 spark streaming 對接kafka記錄 Spark streaming消費kafka數據通過手動管理kafkaoffset保證實時流消費數據的一致性 spark.streaming.kafka.maxRatePerPartition的理解 Spark Streaming實時處理Kafka數據