Pandas处理txt文件(去重复行, 过滤行)


待处理的数据是图片的多属性标注,用Pandas库可以非常方便进行各种形式的处理。

1. txt的读取

使用pandas.read_csv函数

'sep' 是分隔符;
'header' 是否第一行作为DataFrame的column
'index_col' 是否把某一列作为DataFrame的Index

2. 去重

pandas.drop_duplicates函数

3. 保存txt

pandas.to_csv函数

整体代码

import  pandas as pd

# 读取txt
train_data = pd.read_csv('/home/geoffrey/桌面/train.txt.backup', 
                        sep=' ',
                        encoding='utf-8',
                        # index_col=0, 
                        header=None)

# 删除特定行(包含‘打伞’的行)
train_data[train_data[0].apply(lambda x: '打伞' not in x)]

# 去重
train_data.drop_duplicates(inplace=True)

train_data.set_index(0, inplace=True)
# 写入txt
train_data.to_csv('/home/geoffrey/桌面/test1.txt', 
                  sep=' ',
                  encoding='utf-8', 
                  header=None)


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM