pandas DataFrame 交集並集補集

本文轉載自查看原文 2018-10-29 20:42 16505 python

1.場景，對於colums都相同的dataframe做過濾的時候

例如：

df1 = DataFrame([['a', 10, '男'], 
                 ['b', 11, '男'], 
                 ['c', 11, '女'], 
                 ['a', 10, '女'],
                 ['c', 11, '男']], 
                columns=['name', 'age', 'sex'])

df2 = DataFrame([['a', 10, '男'], 
                 ['b', 11, '女']],
                columns=['name', 'age', 'sex'])

取交集：print(pd.merge(df1,df2,on=['name', 'age', 'sex']))
取並集：print(pd.merge(df1,df2,on=['name', 'age', 'sex'], how='outer'))
取差集(從df1中過濾df1在df2中存在的行)：

df1 = df1.append(df2)
df1 = df1.append(df2)
df1 = df1.drop_duplicates(subset=['name', 'age', 'sex'],keep=False)
print(df1)

代碼：

# -*- coding:utf-8 -*-
__version__ = '1.0.0.0'
"""
@brief  :   簡介
@details:   詳細信息
@author :   zhphuang
@date   :   2018-10-29
"""

import pandas as pd
from pandas import *

df1 = DataFrame([['a', 10, '男'],
                 ['b', 11, '男'],
                 ['c', 11, '女'],
                 ['a', 10, '女'],
                 ['c', 11, '男']],
                columns=['name', 'age', 'sex'])
print("df1:\n%s\n\n" % df1)
df2 = DataFrame([['a', 10, '男'],
                 ['b', 11, '女']],
                columns=['name', 'age', 'sex'])
print("df2:\n%s\n\n" % df2)
# 取交集
print("交集:\n%s\n\n" % pd.merge(df1,df2,on=['name', 'age', 'sex']))

# 取並集
print("並集:\n%s\n\n" % pd.merge(df1,df2,on=['name', 'age', 'sex'], how='outer'))

# 從df1中過濾df1在df2中存在的行，也就是取補集
df1 = df1.append(df2)
df1 = df1.append(df2)
print("補集(從df1中過濾df1在df2中存在的行):\n%s\n\n" % df1.drop_duplicates(subset=['name', 'age', 'sex'],keep=False))

截圖

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 集合的交集、並集、補集 java數組並集/交集/差集（補集） Java List的交集、並集、差集、補集用lua求兩個數組的交集、並集和補集。 python-->(set /dict)交集差集並集補集(功能用來做交差並補的) 集合中的交集、並集、差集、補集、對稱差集 JS - 計算兩個數組的交集、差集、並集、補集（多種實現方式） pandas DataFrame(5)-合並DataFrame與Series Pandas dataframe 和 spark dataframe 轉換 Redis文件交集並集