DStream轉為DF的兩種方式（突破map時元組22的限制）

本文轉載自查看原文 2019-07-12 16:01 1084 22/ tuple/ spark整合kafka/ DStream/ DataFrame/ map

在進行Spark Streaming的開發時，我們常常需要將DStream轉為DataFrame來進行進一步的處理，
共有兩種方式，方式一：

val spark = SparkSession.builder()
  .appName("Test")
  .getOrCreate()
import spark.implicits._
dStream.foreachRDD{ rdd =>
  val df = rdd.map(_.split(" "))
    .map(t => (t(1),t(2),t(3)))
    .toDF("col1","col2","col3")
  // 業務邏輯
}

利用map算子和tuple來完成，一般的場景下采用這種方式即可。

但是有的時候我們會遇到列數大於22的情況，這個時候會受到scala的tuple數不能超過22的影響。這時可以采用方式二：

val spark = SparkSession.builder()
  .appName("Test")
  .getOrCreate()
dStream.foreachRDD{ rdd =>
  val res:RDD[Row] = rdd.map{ row =>
    val buffer = ArrayBuffer.empty[Any]
    val fields: Array[String] = row.split("\\|~\\|")
    buffer.append(fields(0))
    buffer.append(fields(1))
    buffer.append(fields(2))
    // 省略
    buffer.append(fields(25))
    Row.fromSeq(buffer)
  } 
  val schema = StructType(Seq(
    StructField("col1", StringType, false),
    StructField("col2", StringType, false),
    StructField("col3", StringType, false),
    // 省略
    StructField("col26", StringType, false)
  ))
  val df: DataFrame = spark.createDataFrame(result, schema)
  // 業務邏輯
}

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Map遍歷及獲取值與鍵的兩種方式 java中遍歷map的兩種方式（一）Python入門-3序列：09元組-特點-創建的兩種方式-tuple()要點 Vue3全局掛載的兩種方式（2022-01-22） httpPost的兩種方式 AntDesign VUE：上傳組件自定義限制的兩種方式（Boolean、Promise） react采用forEach或map兩種方式遍歷數組 golang 開發 Struct 轉換成 map 兩種方式比較前端傳遞數據到后台的兩種方式;創建一個map或者創建一個FormData對象 golang 並發程序寫入map兩種實現方式sync.Mutex和chan的效率對比