python---pandas.merge使用


merge 函數參數

”’
merge: 合並數據集, 通過left, right確定連接字段,默認是兩個數據集相同的字段
參數 說明
left 參與合並的左側DataFrame
right 參與合並的右側DataFrame
how 連接方式:‘inner’(默認);還有,‘outer’、‘left’、‘right’
on 用於連接的列名,必須同時存在於左右兩個DataFrame對象中,如果位指定,則以left和right列名的交集作為連接鍵
left_on 左側DataFarme中用作連接鍵的列
right_on 右側DataFarme中用作連接鍵的列
left_index 將左側的行索引用作其連接鍵
right_index 將右側的行索引用作其連接鍵
sort 根據連接鍵對合並后的數據進行排序,默認為True。有時在處理大數據集時,禁用該選項可獲得更好的性能
suffixes 字符串值元組,用於追加到重疊列名的末尾,默認為(‘_x’,‘_y’).例如,左右兩個DataFrame對象都有‘data’,則結果中就會出現‘data_x’,‘data_y’
copy 設置為False,可以在某些特殊情況下避免將數據復制到結果數據結構中。默認總是賦值
”’

1.merge默認按相同字段合並,且取兩個都有的。

import pandas as pd
df1=pd.DataFrame({'name':['kate','herz','catherine','sally'],
'age':[25,28,39,35]})

df2=pd.DataFrame({'name':['kate','herz','sally'],
'score':[70,60,90]})
pd.merge(df1,df2)

age name score
0 25 kate 70
1 28 herz 60
2 35 sally 90

2. 當左右連接字段不相同時,使用left_on,right_on

pd.merge(df1,df2,left_on="name",right_on='call_name')

age name call_name score
0 25 kate kate 70
1 28 herz herz 60
2 35 sally sally 90

3. 合並后,刪除重復的列

pd.merge(df1,df2,left_on='name',right_on='call_name').drop('name',axis=1)

age call_name score
0 25 kate 70
1 28 herz 60
2 35 sally 90

 

4.參數how的使用

“1)默認:inner 內連接,取交集”

pd.merge(df1,df2,on='name',how='inner')

age name score
0 25 kate 70
1 28 herz 60
2 35 sally 90
”’
“2)outer 外連接,取並集,並用nan填充”

df3=pd.DataFrame({'name':['kate','herz','sally','cristin'],
'score':[70,60,90,30]})
pd.merge(df1,df3,on='name',how='outer')

age name score
0 25 kate 70
1 28 herz 60
2 39 catherine NaN
3 35 sally 90
4 NaN cristin 30

“3)left 左連接, 左側取全部,右側取部分”

pd.merge(df1,df3,on='name',how='left')

age name score
0 25 kate 70
1 28 herz 60
2 39 catherine NaN
3 35 sally 90

“4) right 有連接,左側取部分,右側取全部”

pd.merge(df1,df3,on='name',how='right')

age name score
0 25 kate 70
1 28 herz 60
2 35 sally 90
3 NaN cristin 30


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM