python 包含漢字的文件讀寫之每行末尾加上特定字符

本文轉載自查看原文 2016-12-12 11:28 1386 漢字/ Python 2.7/ 文件讀寫

在數據挖掘中，原始文件的格式往往是令人抓狂，很重要的一步是對數據文件的格式進行整理。

最近，接手的項目里，提供的數據文件格式簡直讓人看不下去，使用pandas打不開，一直是io error.仔細查看，發現文件中很多行數據是以"結尾，然而其他行缺失，因而需求也就很明顯了：判斷每行的結尾是否有"，沒有的話，加上就好了。

采用倒敘的方式好了，畢竟很多人需要的只是一個快速的解決方案，而不是一個why. 解決方案如下：

 1 b = open('b_file.txt', w)
 2 with open('a_file.txt', 'r') as lines:
 3     for line in lines:
 4         line = line.strip()
 5         if not line.endswith(r'"'):
 6             line += r'"'
 7         line += '\n'
 8         b.write(line)
 9 
10 b.close()
11 a.close()

其中整個過程的關鍵在於

line = line.strip()

　　之前我偷懶，直接使用省去了上面那行，結果在判斷條件栽了跟頭，程序認為每一行都不是以"結尾：

if not line.endswith(r'"')

硬着頭皮試上去，重寫：

for line in open(data_path+'heheda.txt', 'r'):
    if not line[-2] == r'"':
        print line
        line = line[:-1] + r'"' + line[-1:]
        print line

此時判斷條件為 if not line[-2] == r'"'，這樣才能得到除最后一行之外的正確結果。眾所周知的原因，在windows系統中，文件的回車符是"\r\n"，因而，在沒有strip()處理好回車符的時候，需要手動在每一行的結尾前移一個字節進行判斷每行的末尾。而對於文件的最后一行，一般情況下不是回車符作為結尾，畢竟不要換行了嘛。因而line[-2]則定位到了最后一個漢字的中間，將\xx\xx，硬寫成了\xx"\xx，使得最后一個字顯示錯誤。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python處理文件---每行末尾加上字符 linux中查找包含特定字符的文件 python 對文件的每行字符按長度排序 notepad++每行末尾或開頭插入指定字符串 python 讀寫文件時判斷文件名是否包含某字符串查找linux目錄下包含特定字符文件 python 正則匹配漢字、簡單讀寫、打開txt文件 linux系統awk命令統計每行特定字符出現的次數 strip() ----python字符串去除【首尾】空白或包含特定字符 python獲取字符串的前幾個字符（包含漢字）