Spark2 Dataset去重、差集、交集

本文转载自查看原文 2016-11-25 16:20 13165 数据框/ 差集/ 去重/ 交集/ DataFrame/ 2.0--Spark

import org.apache.spark.sql.functions._
      
// 对整个DataFrame的数据去重 
data.distinct() 
data.dropDuplicates() 
      
// 对指定列的去重 
val colArray=Array("affairs", "gender") 
data.dropDuplicates(colArray) 
//data.dropDuplicates("affairs", "gender") 
      
  
val df=data.filter("gender=='male' ") 
// data与df的差集 
data.except(df).show 
+-------+------+----+------------+--------+-------------+---------+----------+------+ 
|affairs|gender| age|yearsmarried|children|religiousness|education|occupation|rating| 
+-------+------+----+------------+--------+-------------+---------+----------+------+ 
|    0.0|female|32.0|        15.0|     yes|          1.0|     12.0|       1.0|   4.0| 
|    0.0|female|32.0|         1.5|      no|          2.0|     17.0|       5.0|   5.0| 
|    0.0|female|32.0|        15.0|     yes|          4.0|     16.0|       1.0|   2.0| 
|    0.0|female|22.0|        0.75|      no|          2.0|     12.0|       1.0|   3.0| 
|    0.0|female|27.0|         4.0|      no|          4.0|     14.0|       6.0|   4.0| 
+-------+------+----+------------+--------+-------------+---------+----------+------+ 


// data与df的交集
data.intersect(df)

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 js Array 交集并集差集去重 java list 交集并集差集去重复并集 Spark2 Dataset之视图与SQL Spark2 Dataset聚合操作两个List集合如何去重，取交集，并集，差集 js求对象数组的交集/并集/差集/去重 js 数组 : 差集、并集、交集、去重、多维转一维 C# Linq 交集、并集、差集、去重 JavaScript Set及其应用去重，交集，并集，差集 js 实现json数组集合去重，差集，并集，交集。