待處理的數據是圖片的多屬性標注,用Pandas庫可以非常方便進行各種形式的處理。
1. txt的讀取
使用pandas.read_csv
函數
'sep' 是分隔符;
'header' 是否第一行作為DataFrame的column
'index_col' 是否把某一列作為DataFrame的Index
2. 去重
pandas.drop_duplicates
函數
3. 保存txt
pandas.to_csv
函數
整體代碼
import pandas as pd
# 讀取txt
train_data = pd.read_csv('/home/geoffrey/桌面/train.txt.backup',
sep=' ',
encoding='utf-8',
# index_col=0,
header=None)
# 刪除特定行(包含‘打傘’的行)
train_data[train_data[0].apply(lambda x: '打傘' not in x)]
# 去重
train_data.drop_duplicates(inplace=True)
train_data.set_index(0, inplace=True)
# 寫入txt
train_data.to_csv('/home/geoffrey/桌面/test1.txt',
sep=' ',
encoding='utf-8',
header=None)