Pandas處理txt文件(去重復行, 過濾行)


待處理的數據是圖片的多屬性標注,用Pandas庫可以非常方便進行各種形式的處理。

1. txt的讀取

使用pandas.read_csv函數

'sep' 是分隔符;
'header' 是否第一行作為DataFrame的column
'index_col' 是否把某一列作為DataFrame的Index

2. 去重

pandas.drop_duplicates函數

3. 保存txt

pandas.to_csv函數

整體代碼

import  pandas as pd

# 讀取txt
train_data = pd.read_csv('/home/geoffrey/桌面/train.txt.backup', 
                        sep=' ',
                        encoding='utf-8',
                        # index_col=0, 
                        header=None)

# 刪除特定行(包含‘打傘’的行)
train_data[train_data[0].apply(lambda x: '打傘' not in x)]

# 去重
train_data.drop_duplicates(inplace=True)

train_data.set_index(0, inplace=True)
# 寫入txt
train_data.to_csv('/home/geoffrey/桌面/test1.txt', 
                  sep=' ',
                  encoding='utf-8', 
                  header=None)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM