spark dataframe 将null 改为 nan

本文转载自查看原文 2018-07-09 18:04 1208

由于我要叠加rdd某列的数据，如果加数中出现nan，结果也需要是nan，nan可以做到，但我要处理的数据源中的nan是以null的形式出现的，null不能叠加，而且我也不能删掉含null的行，于是我用了sparksql 的 ISNULL和CASE WHEN方法：

Case When 方法：

如果obs_PRE_1h列有值则不变，没有则变为nan，注意这里的nan需要写成 float（‘NaN’）

SELECT (CASE WHEN ISNULL(obs_PRE_1h)=true THEN float('NaN') ELSE obs_PRE_1h END) as obs,(CASE WHEN ISNULL(fcst_PRE_1h)=true THEN float('NaN') ELSE fcst_PRE_1h END) as fcst FROM parquetFile

源dataframe是这样的：

结果：

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Spark2 Dataset DataFrame空值null,NaN判断和处理 dataframe去除null、NaN和空字符串 Spark：给DataFrame添加一个有类型的null列 dataframe填充NaN值 dataframe将None替换为NaN或其他了解undefined、null、NaN的区别 Pandas dataframe 和 spark dataframe 转换 Python中识别DataFrame中的nan Spark-Dataframe操作 pandas和spark的dataframe互转