python dataframe 在merge時產生笛卡爾積

本文轉載自查看原文 2018-10-25 10:37 1896 Hive & SQL/ Python

在pandas中，concat, merge, join的使用方法可以參考以下資料：
http://blog.csdn.net/stevenkwong/article/details/52528616
主要講下笛卡爾積：

import pandas as pd
from pandas import DataFrame
df1=DataFrame({'a':[1,2,3], 'b':[4,5,6], 'key':[0,0,0]})
df2=DataFrame({'c':[3,2,1], 'd':[6,5,4], 'key':[0,0,0]})
data = pd.merge(df1, df2, on='key')

這里merge默認為內連接。

df1:

   a  b  key
0  1  4    0
1  2  5    0
2  3  6    0

df2:

   c  d  key
0  3  6    0
1  2  5    0
2  1  4    0

data:

   a  b  key  c  d
0  1  4    0  3  6
1  1  4    0  2  5
2  1  4    0  1  4
3  2  5    0  3  6
4  2  5    0  2  5
5  2  5    0  1  4
6  3  6    0  3  6
7  3  6    0  2  5
8  3  6    0  1  4

由此可知，當兩個表連接時，有相同的key值就產生積。

如果，需要進行merge的次數過多時，每次都產生笛卡爾積，最終就會產生內存爆炸的現象。

所以，在merge時，一定要避免相同的key值，可以分批次merge，最后再concat。
---------------------

原文：https://blog.csdn.net/yj1556492839/article/details/79529186

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 幾個有用的python函數 (笛卡爾積, 排列, 組合) oracle-笛卡爾積（多張集合與集合取笛卡爾積 js 生成笛卡爾積 SparkSQL中產生笛卡爾積的幾種典型場景以及處理策略 JS笛卡爾積算法與多重數組笛卡爾積實現方法示例 Python小技巧：使用*解包和itertools.product()求笛卡爾積 SQL Server Join 連接和笛卡爾積問題什么是內連接、外連接、交叉連接、笛卡爾積等? MySQL的多表查詢(笛卡爾積原理)

python dataframe 在merge時 產生笛卡爾積

免責聲明！

python dataframe 在merge時產生笛卡爾積