Pandas处理txt文件（去重复行，过滤行）

本文转载自查看原文 2019-11-14 11:14 417 杂七杂八

待处理的数据是图片的多属性标注，用Pandas库可以非常方便进行各种形式的处理。

1. txt的读取

使用pandas.read_csv函数

'sep' 是分隔符；
'header' 是否第一行作为DataFrame的column
'index_col' 是否把某一列作为DataFrame的Index

2. 去重

pandas.drop_duplicates函数

3. 保存txt

pandas.to_csv函数

整体代码

import  pandas as pd

# 读取txt
train_data = pd.read_csv('/home/geoffrey/桌面/train.txt.backup', 
                        sep=' ',
                        encoding='utf-8',
                        # index_col=0, 
                        header=None)

# 删除特定行（包含‘打伞’的行）
train_data[train_data[0].apply(lambda x: '打伞' not in x)]

# 去重
train_data.drop_duplicates(inplace=True)

train_data.set_index(0, inplace=True)
# 写入txt
train_data.to_csv('/home/geoffrey/桌面/test1.txt', 
                  sep=' ',
                  encoding='utf-8', 
                  header=None)

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 使用pandas过滤文件重复行 awk去重以某列重复的行 Python 去重csv文件中相同的重复行 [Python]pyhon去除txt文件重复行 python 2020.2.10 notepad++过滤重复行 pandas之DateFrame 数据过滤+遍历行+读写csv-txt-excel C# Datatable去重复行 MySQL 删除重复的行（去重留一） PowerShell读写文件，行的去重 java读取按行txt文件