spark按某幾列刪除dataframe重復行

本文轉載自查看原文 2018-03-05 09:12 4396 Scala

新建一個 dataframe ：

val conf = new SparkConf().setAppName("TTyb").setMaster("local")
val sc = new SparkContext(conf)
val spark = new SQLContext(sc)
val dataFrame = spark.createDataFrame(Seq(
  (1, 1, "2", "5"),
  (2, 2, "3", "6"),
  (2, 2, "35", "68"),
  (2, 2, "34", "67"),
  (2, 2, "38", "68"),
  (3, 2, "36", "69"),
  (1, 3, "4", null)
)).toDF("id", "label", "col1", "col2")

想根據 id 和 lable 來刪除重復行，即刪掉 id=2 且 lable=2 的重復行。利用 distinct 無法刪除

dataframe.distinct().show()
+---+-----+----+----+
| id|label|col1|col2|
+---+-----+----+----+
|  1|    1|   2|   5|
|  2|    2|   3|   6|
|  2|    2|  35|  68|
|  2|    2|  34|  67|
|  2|    2|  38|  68|
|  3|    2|  36|  69|
|  1|    3|   4|null|
+---+-----+----+----+

利用 dropDuplicates 可以根據 ID 來刪除：

dataFrame.dropDuplicates("id","label").show()
+---+-----+----+----+
| id|label|col1|col2|
+---+-----+----+----+
|  2|    2|   3|   6|
|  1|    1|   2|   5|
|  1|    3|   4|null|
|  3|    2|  36|  69|
+---+-----+----+----+

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 dataframe刪除重復行刪除重復行的DataFrame Python之如何刪除pandas DataFrame的某一/幾列 df.drop_duplicates()返回刪除重復行（或者列）的DataFrame Python 中使用 pandas Dataframe 刪除重復的行 DataFrame 刪除全為零的行 python dataframe 刪掉某幾列 Spark中對DataFrame的基礎操作：列增加，列刪除，行增加，列名更換，排序等等 VIM刪除重復行 python dataframe刪除指定的行