Spark2 DataSet 创建新行之flatMap

本文转载自查看原文 2016-11-28 19:05 4532 2.0--Spark

val dfList = List(("Hadoop", "Java,SQL,Hive,HBase,MySQL"), ("Spark", "Scala,SQL,DataSet,MLlib,GraphX"))
dfList: List[(String, String)] = List((Hadoop,Java,SQL,Hive,HBase,MySQL), (Spark,Scala,SQL,DataSet,MLlib,GraphX))

case class Book(title: String, words: String)

val df=dfList.map{p=>Book(p._1,p._2)}.toDS()
df: org.apache.spark.sql.Dataset[Book] = [title: string, words: string]

df.show
+------+--------------------+
| title|               words|
+------+--------------------+
|Hadoop|Java,SQL,Hive,HBa...|
| Spark|Scala,SQL,DataSet...|
+------+--------------------+

df.flatMap(_.words.split(",")).show
+-------+
|  value|
+-------+
|   Java|
|    SQL|
|   Hive|
|  HBase|
|  MySQL|
|  Scala|
|    SQL|
|DataSet|
|  MLlib|
| GraphX|
+-------+

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Spark2 Dataset去重、差集、交集 Spark2 Dataset DataFrame空值null,NaN判断和处理 Spark2 Dataset行列操作和执行计划 Spark 根据 JSON数据创建Dataset Spark2 Dataset分析函数--排名函数row_number,rank,dense_rank,percent_rank Spark入门（四）--Spark的map、flatMap、mapToPair HDP Spark2 HIVE3.1 的问题 Spark2 文件处理和jar包执行 Spark2 生存分析Survival regression Spark RDD、DataFrame和DataSet的区别