python-pandas两个相同格式的excel对比输出不同内容


近期项目需要,场景是有两个excel表格,一个是之前的旧表格,一个是新内容的表格,需要将两个不同的提取出来生成新的excel。

python使用到的是pandas这个库,前提是需要安装python,和自己熟悉的开发工具。

def drop_duplicates(usedExcel, newExcel, outputExcel):
    df1 = pd.read_excel(usedExcel)
    df2 = pd.read_excel(newExcel)
    c = df1.append(df2)
    c.drop_duplicates(keep=False, inplace=True)
    print(c)
    df = pd.DataFrame(c)
    df.to_excel(outputExcel, index=False)

写了一个工具函数,需要有两个三个参数第一个是旧的excel表格的绝对路径,第二个是新的excel表格的绝对路径,第三个是需要输出excel表格的绝对路径,

思路:先读取两个表格的内容,读取到的类型是DataFrame,然后使用pandas自带的.append()函数合并两个表格数据,再去除重复值,将去除完成的输出到指定excel

.append()中是将'()'里面的追加到‘.’前面。

.drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行,返回DataFrame格式的数据。

其中.drop_duplicate()有三个参数

subset : column label or sequence of labels, optional
用来指定特定的列,默认所有列
keep : {‘first’, ‘last’, False}, default ‘first’
删除重复项并保留第一次出现的项
inplace : boolean, default False
是直接在原来数据上修改还是保留一个副本

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM