Pandas | Dataframe的merge操作，像數據庫一樣盡情join

本文轉載自查看原文 2020-09-05 16:45 746 pandas/ 數據分析/ 數據處理

今天是pandas數據處理第8篇文章，我們一起來聊聊dataframe的合並。

常見的數據合並操作主要有兩種，第一種是我們新生成了新的特征，想要把它和舊的特征合並在一起。第二種是我們新獲取了一份數據集，想要擴充舊的數據集。這兩種合並操作在我們日常的工作當中非常尋常，那么究竟應該怎么操作呢？讓我們一個一個來看。

merge

首先我們來看dataframe當中的merge操作，merge操作類似於數據庫當中兩張表的join，可以通過一個或者多個key將多個dataframe鏈接起來。

我們首先來創建兩個dataframe數據：

df1 = pd.DataFrame({'id': [1, 2, 3, 3, 5, 7, 6], 'age': range(7)})

df2 = pd.DataFrame({'id': [1, 2, 4, 4, 5, 6, 7], 'score': range(7)})

我們可以看到這兩個dataframe當中都有id這個字段，如果我們想要將它們根據id關聯起來，我們可以用pd.merge函數完成：

這里雖然我們沒有指定根據哪一列完成關聯，但是pandas會自動尋找兩個dataframe的名稱相同列來進行關聯。一般情況下我們不這么干，還是推薦大家指定列名。指定列名很簡單，我們只需要傳入on這個參數即可。

如果需要根據多列關聯，我們也可以傳入一個數組。但假如兩個dataframe當中的列名不一致怎么辦，比如這兩個dataframe當中的一列叫做id，一列叫做number，該怎么完成join呢？

df1 = pd.DataFrame({'id': [1, 2, 3, 3, 5, 7, 6], 'age': range(7)})

df2 = pd.DataFrame({'number': [1, 2, 4, 4, 5, 6, 7], 'score': range(7)})

這個時候就需要用left_on指定左表用來join的列名，用right_on指定右表用來join的列名。

談到join，不得不提另外一個問題就是join的方式。我們都知道在數據庫的表join操作當中我們通常的join方式有4種。分別是innner join，left join，right join和outer join。我們觀察一下上面的結果會發現關聯之后的數據條數變少了，這是因為默認的方式是inner join，也就是兩張表當中都存在的數據才會被保留。如果是left join，那邊左邊當中所有的數據都會保留，關聯不上的列置為None，同理，如果是right join，則右表全部保留，outer join則會全部保留。

join的方式選擇通過how這個參數控制，比如如果我們想要左表保留，我們傳入how='left'即可。

除此之外，merge操作還有一些其他的參數，由於篇幅限制我們不一一介紹了，大家感興趣可以去查閱相關文檔。

數據合並

另外一個常用的操作叫做數據合並，為了和merge操作區分，我用了中文。雖然同樣是合並，但是它的邏輯和merge是不同的。對於merge來說，我們需要關聯的key，是通過數據關聯上之后再合並的。而合並操作是直接的合並，行對行合並或者是列對列合並，是忽視數據的合並。

這個合並操作我們之前在numpy的介紹當中曾經也提到過，我們這里簡單回顧一下。

首先我們先創建一個numpy的數組：

import numpy as np
arr = np.random.rand(3, 4)

之后呢，我們可以用concatenate函數把這個數組橫着拼或者是豎着拼，默認是豎着拼：

我們也可以通過axis這個參數讓它變成橫着拼：

對於dataframe同樣也有這樣的操作，不過換了一個名字叫做concat。如果我們不指定的話會豎着拼接：

豎着拼接的時候會按照列進行對齊，如果列名對不上就會填充NaN。

通過axis參數我們可以讓它橫向拼接：

以上就是concat的基本用法了，除了基本用法之外，concat還有一些其他的應用，比如說處理index層次索引等等。只是這些用法相對來說比較小眾，使用頻率不高，就不贅述了。

今天的文章到這里就結束了，如果喜歡本文的話，請來一波素質三連，給我一點支持吧（關注、轉發、點贊）。

原文鏈接，求個關注

- END -

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Pandas中DataFrame數據合並、連接（concat、merge、join）之merge Pandas中DataFrame數據合並、連接（concat、merge、join）之join Pandas中DataFrame數據合並、連接（concat、merge、join）之concat 數據庫三種基本連接操作(HASH JOIN MERGE JOIN NESTED LOOP) pandas.merge和DataFrame.join的用法區別 Python 數據處理擴展包： pandas 模塊的DataFrame介紹（讀寫數據庫的操作） Pandas dataframe數據寫入文件和數據庫將pandas的DataFrame數據寫入MySQL數據庫 + sqlalchemy pandas之DataFrame合並merge pandas.DataFrame.merge