Spark SQL DataFrame新增一列的四种方法

本文转载自查看原文 2018-10-09 20:56 8470 Spark SQL

方法一：利用createDataFrame方法，新增列的过程包含在构建rdd和schema中
方法二：利用withColumn方法，新增列的过程包含在udf函数中
方法三：利用SQL代码，新增列的过程直接写入SQL代码中
方法四：以上三种是增加一个有判断的列，如果想要增加一列唯一序号，可以使用monotonically_increasing_id

代码块：

//dataframe新增一列方法1，利用createDataFrame方法
val trdd = input.select(targetColumns).rdd.map(x=>{ if (x.get(0).toString().toDouble > critValueR || x.get(0).toString().toDouble < critValueL) Row(x.get(0).toString().toDouble,"F") else Row(x.get(0).toString().toDouble,"T") }) val schema = input.select(targetColumns).schema.add("flag", StringType, true) val sample3 = ss.createDataFrame(trdd, schema).distinct().withColumnRenamed(targetColumns, "idx") //dataframe新增一列方法2
val code :(Int => String) = (arg: Int) => {if (arg > critValueR || arg < critValueL) "F" else "T"} val addCol = udf(code) val sample3 = input.select(targetColumns).withColumn("flag", addCol(input(targetColumns))) .withColumnRenamed(targetColumns, "idx") //dataframe新增一列方法3
input.select(targetColumns).createOrReplaceTempView("tmp") val sample3 = ss.sqlContext.sql("select distinct "+targetColname+
    " as idx,case when "+targetColname+">"+critValueR+" then 'F'"+
    " when "+targetColname+"<"+critValueL+" then 'F' else 'T' end as flag from tmp") //添加序号列新增一列方法4
import org.apache.spark.sql.functions.monotonically_increasing_id val inputnew = input.withColumn("idx", monotonically_increasing_id)

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 spark DataFrame新增一列id列(单调递增，不重复)的几种方法 spark dataFrame 新增一列函数withColumn Dataframe 新增一列, apply 通用方法 Dataframe 根据其他列的条件新增一列 spark为dataframe增加一列常数值根据一列对DateFrame进行筛选的三种方法 sql在查询结果集上新增一列 DataFrame在任意处添加一列或者多列的方法 Spark SQL中列转行（UNPIVOT）的两种方法 sql server deadlock跟踪的四种方法