spark中常用轉換操作keys 、values和mapValues

本文轉載自查看原文 2020-02-14 17:36 933

1.keys

功能：

　　返回所有鍵值對的key

示例

val list = List("hadoop","spark","hive","spark")
val rdd = sc.parallelize(list)
val pairRdd = rdd.map(x => (x,1))
pairRdd.keys.collect.foreach(println)

結果

hadoop
spark
hive
spark
list: List[String] = List(hadoop, spark, hive, spark)
rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[142] at parallelize at command-3434610298353610:2
pairRdd: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[143] at map at command-3434610298353610:3

2.values

功能：

　　返回所有鍵值對的value

示例

val list = List("hadoop","spark","hive","spark")
val rdd = sc.parallelize(list)
val pairRdd = rdd.map(x => (x,1))
pairRdd.values.collect.foreach(println)

結果

1
1
1
1
list: List[String] = List(hadoop, spark, hive, spark)
rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[145] at parallelize at command-3434610298353610:2
pairRdd: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[146] at map at command-3434610298353610:3

3.mapValues(func)

功能：

　　對鍵值對每個value都應用一個函數，但是，key不會發生變化。

示例　

val list = List("hadoop","spark","hive","spark")
val rdd = sc.parallelize(list)
val pairRdd = rdd.map(x => (x,1))
pairRdd.mapValues(_+1).collect.foreach(println)//對每個value進行+1

結果

(hadoop,2)
(spark,2)
(hive,2)
(spark,2)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【spark】常用轉換操作：keys 、values和mapValues ES6中常用的對象方法：Object.keys()、Object.values() ... Spark中常用的算法【spark】常用轉換操作：reduceByKey和groupByKey Keys 類鍵盤操作的常用方法 ES6 —— entries()，keys()和values() Python的字典的items(), keys(), values() java中常用Redis操作 MySQL中常用轉換函數介紹 Sql 中常用日期轉換Convert(Datetime) .