Pandas處理txt文件（去重復行，過濾行）

本文轉載自查看原文 2019-11-14 11:14 417 雜七雜八

待處理的數據是圖片的多屬性標注，用Pandas庫可以非常方便進行各種形式的處理。

1. txt的讀取

使用pandas.read_csv函數

'sep' 是分隔符；
'header' 是否第一行作為DataFrame的column
'index_col' 是否把某一列作為DataFrame的Index

2. 去重

pandas.drop_duplicates函數

3. 保存txt

pandas.to_csv函數

整體代碼

import  pandas as pd

# 讀取txt
train_data = pd.read_csv('/home/geoffrey/桌面/train.txt.backup', 
                        sep=' ',
                        encoding='utf-8',
                        # index_col=0, 
                        header=None)

# 刪除特定行（包含‘打傘’的行）
train_data[train_data[0].apply(lambda x: '打傘' not in x)]

# 去重
train_data.drop_duplicates(inplace=True)

train_data.set_index(0, inplace=True)
# 寫入txt
train_data.to_csv('/home/geoffrey/桌面/test1.txt', 
                  sep=' ',
                  encoding='utf-8', 
                  header=None)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python的pandas處理txt文件 awk去重以某列重復的行 MySQL 刪除重復的行（去重留一）數據分析五 pandas數據處理刪除重復行映射通過bat批處理程序如何實現在多個txt文件后面加上相同的一行文字 Pandas數據去重和對重復數據分類、求和，得到未重復和重復（求和后）的數據 linux(centos8):用uniq去除文本中重復的行(去重) pandas過濾包含特定字符串的行 mysql中利用group by過濾刪除重復行 scala使用spark對txt文件數據進行去重