Spark：給DataFrame添加一個有類型的null列

本文轉載自查看原文 2019-01-04 17:25 753

我們知道，scala中Int類型不能為null，
而Dataset中表示的Int值的IntegerType類型列卻能為null。

如果我們想產生一個IntegerType類型列為null的DataFrame該怎么做？
下面的代碼可以做到：

import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._
val df_json = spark.createDataFrame(List(
  (1.2, 1),
  (3.1, 2)))
  .toDF("col1", "col2")
val udf_null = udf((s: Any) => null)
val df_res = df_json.withColumn("col3", udf_null(col("col1")).cast(IntegerType))
df_res.show

scala> df_res.printSchema
root
 |-- col1: double (nullable = false)
 |-- col2: integer (nullable = false)
 |-- col3: integer (nullable = true)

scala> df_res.show
+----+----+----+
|col1|col2|col3|
+----+----+----+
| 1.2|   1|null|
| 3.1|   2|null|
+----+----+----+

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 給dataframe添加一列索引 PySpark Dataframe 添加新列 spark dataframe 類型轉換 spark為dataframe增加一列常數值 spark dataFrame 新增一列函數withColumn [spark][pyspark]拆分DataFrame中某列Array 改變Dataframe的列的數據類型 pandas.DataFrame對行和列求和及添加新行和列 Spark SQL DataFrame新增一列的四種方法 (轉）dataframe中int類型的列轉成時間格式