Spark之join、leftOuterJoin、rightOuterJoin及fullOuterJoin

本文轉載自查看原文 2018-10-06 22:08 4755 大數據處理

Spark的join與mysql的join類似，mysql的join是將表與表之間連接查詢，spark中join是將RDD數據集進行連接，Spark主要有join、leftOuterJoin、rightOuterJoin及fullOuterJoin這4種連接

join：相當於mysql的INNER JOIN，當join左右兩邊的數據集都存在時才返回

leftOuterJoin：相當於mysql的LEFT JOIN，leftOuterJoin返回數據集左邊的全部數據和數據集左邊與右邊有交集的數據

rightOuterJoin：相當於mysql的RIGHT JOIN，rightOuterJoin返回數據集右邊的全部數據和數據集右邊與左邊有交集的數據

fullOuterJoin：返回左右數據集的全部數據，左右有一邊不存在的數據以None填充

下面以代碼看個例子：

from pyspark import SparkConf, SparkContext conf = SparkConf() sc = SparkContext(conf=conf) def func_join(): a = sc.parallelize([("name", "Alice"), ("age", 20), ("job", "student"), ("fav", "basket")]) b = sc.parallelize([("name", "Bob"), ("age", 22), ("address", "WuHan")]) print("join:{}".format(a.join(b).collect())) print("leftOuterJoin:{}".format(a.leftOuterJoin(b).collect())) print("rightOuterJoin:{}".format(a.rightOuterJoin(b).collect())) print("fullOuterJoin:{}".format(a.fullOuterJoin(b).collect())) func_join() sc.stop() """ result： join:[('name', ('Alice', 'Bob')), ('age', (20, 22))] leftOuterJoin:[('fav', ('basket', None)), ('name', ('Alice', 'Bob')), ('job', ('student', None)), ('age', (20, 22))] rightOuterJoin:[('name', ('Alice', 'Bob')), ('age', (20, 22)), ('address', (None, 'WuHan'))] fullOuterJoin:[('fav', ('basket', None)), ('name', ('Alice', 'Bob')), ('job', ('student', None)), ('age', (20, 22)), ('address', (None, 'WuHan'))]
"""

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark SQL 之 Join 實現 Hive以及spark的Join過程 spark join算子 Spark 中的join方式(pySpark) Spark SQL如何選擇join策略 [Spark][Python]Spark Join 小例子 Spark的五種JOIN策略解析 Spark braodcast join timeout 300 Spark SQL中的幾種join Spark-Join優化之Broadcast