如何使Spark Dataframe區分具有重復名稱的列，避免References ambiguous問題

本文轉載自查看原文 2019-04-11 10:53 575 Spark

前言

有時候我們在使用Spark中執行Join時候，結果集出現重復的列名，從而導致References ambiguous問題。我們可以用以下方式來解決。

實例

首先模擬一些數據

#In python
from pyspark.mllib.linalg import SparseVector
from pyspark.sql import Row

df1 = sqlContext.createDataFrame([
    Row(a=107831, f=SparseVector(
        5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})),
    Row(a=125231, f=SparseVector(
        5, {0: 0.0, 1: 0.0, 2: 0.0047, 3: 0.0, 4: 0.0043})),
])

df2 = sqlContext.createDataFrame([
    Row(a=107831, f=SparseVector(
        5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})),
    Row(a=107831, f=SparseVector(
        5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})),
])

為了防止出現重復列名的問題，首先可以指定使用哪張表的列，如下：

df1.join(df2, df1['a'] == df2['a']).select(df1['f']).show(2)

##  +--------------------+
##  |                   f|
##  +--------------------+
##  |(5,[0,1,2,3,4],[0...|
##  |(5,[0,1,2,3,4],[0...|
##  +--------------------+

當然我們也可以使用別名alias：

from pyspark.sql.functions import col

df1_a = df1.alias("df1_a")
df2_a = df2.alias("df2_a")

df1_a.join(df2_a, col('df1_a.a') == col('df2_a.a')).select('df1_a.f').show(2)

##  +--------------------+
##  |                   f|
##  +--------------------+
##  |(5,[0,1,2,3,4],[0...|
##  |(5,[0,1,2,3,4],[0...|
##  +--------------------+

除此之外，我們還可以編程式的重命名列來避免模糊列名：

df1_r = df1.select(*(col(x).alias(x + '_df1') for x in df1.columns))
df2_r = df1.select(*(col(x).alias(x + '_df2') for x in df2.columns))

df1_r.join(df2_r, col('a_df1') == col('a_df2')).select(col('f_df1')).show(2)

## +--------------------+
## |               f_df1|
## +--------------------+
## |(5,[0,1,2,3,4],[0...|
## |(5,[0,1,2,3,4],[0...|
## +--------------------+

當然還有一種簡單的方法，可以在結果表中只產生一份用於連接的列，

df1.join(df2,['a'])

參考

Spark Dataframe distinguish columns with duplicated name

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark關於join后有重復列的問題（org.apache.spark.sql.AnalysisException: Reference '*' is ambiguous） spark關於join后有重復列的問題（org.apache.spark.sql.AnalysisException: Reference '*' is ambiguous） Spark DataFrame選取多列 spark DataFrame新增一列id列(單調遞增，不重復)的幾種方法 Spark DataFrame 添加索引列 spark按某幾列刪除dataframe重復行 spark為dataframe增加一列常數值 spark dataFrame 新增一列函數withColumn Spark：給DataFrame添加一個有類型的null列 [spark][pyspark]拆分DataFrame中某列Array