[Python]python去除兩個txt文件的重復詞匯 python 2020.2.10


兩個txt文件詞匯,用換行符分隔。可以用代碼將要處理的文件去掉另一個文件所包含的重復內容。

如:

a.txt內容為:

衡山

泰山

西湖

紫禁城

b.txt內容為:

泰山

衡山

長白山

張三豐

將a.txt設為要處理的文件,將b.txt設為字典,則輸出的c.txt文件為

c.txt

西湖

紫禁城

代碼如下:

 1 import csv
 2 import re
 3 import io
 4 
 5 #創建字典
 6 def dictlist(filepath):
 7     dicts = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
 8     return dicts
 9 
10 dicts = dictlist('E://word2.txt')  # 這里去重詞的路徑
11 f2=open("E:/word4.txt","a+",encoding='utf-8') # 這里為寫入的新文件
12 f=open("E:/word3.txt","r+",encoding='utf-8') # 這里為要處理的文件
13 for line in f:
14     if line.strip() not in dicts:
15         f2.write(line.strip()+"\n")
16 f.close()
17 f2.close()

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM