spark中RDD转化成DataSet类型的方式进行访问

本文转载自查看原文 2019-10-08 22:55 483

1）创建一个样例类

scala> case class People(name:String,age:Long)
defined class People

2）创建DataSet

scala> val caseClassDS = Seq(People("Andy",32)).toDS()
caseClassDS: org.apache.spark.sql.Dataset[People] = [name: string, age: bigint]

这样people不仅仅有类型，而且还有了结构，这样用起来会更加方便一些。

3）caseClassDS.你会发现这里有很多种方法，也可以show，也可以limit等等。

scala> caseClassDS.
agg describe intersect reduce toDF
alias distinct isLocal registerTempTable toJSON
apply drop isStreaming repartition toJavaRDD
as dropDuplicates javaRDD rollup toLocalIterator
cache dtypes join sample toString
checkpoint except joinWith schema transform
coalesce explain limit select union
col explode map selectExpr unionAll
collect filter mapPartitions show unpersist
collectAsList first na sort where
columns flatMap orderBy sortWithinPartitions withColumn
count foreach persist sparkSession withColumnRenamed
createGlobalTempView foreachPartition printSchema sqlContext withWatermark
createOrReplaceTempView groupBy queryExecution stat write
createTempView groupByKey randomSplit storageLevel writeStream
crossJoin head randomSplitAsList take
cube inputFiles rdd takeAsList

这里和dataframe差不多的。

4）这里我们用createGlobalTempView试一试

scala> caseClassDS.createGlobalTempView("People")

5)好了，我们这是时候想想，可以用spark.sql查询，select语句直接查询想查询的内容即可。

scala> spark.sql("select * from global_temp.People").show()
+----+---+
|name|age|
+----+---+
|Andy| 32|
+----+---+

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 go语言int类型转化成string类型的方式 java对象转化成String类型 Spark中RDD、DataFrame和DataSet的区别 Spark连续特征转化成离散特征 .net MVC 中枚举类型Enum 转化成下拉列表的数据源 java将int类型的变量转化成String类型的 java中基本数据类型数据转化成byte[]数组存储将html转化成dom对象然后进行分析 C#将当前时间转化成int类型数字 ORACLE LONG类型转化成VARCHAR2函数