兩個txt文件詞匯,用換行符分隔。可以用代碼將要處理的文件去掉另一個文件所包含的重復內容。
如:
a.txt內容為:
衡山
泰山
西湖
紫禁城
b.txt內容為:
泰山
衡山
長白山
張三豐
將a.txt設為要處理的文件,將b.txt設為字典,則輸出的c.txt文件為
c.txt
西湖
紫禁城
代碼如下:
1 import csv 2 import re 3 import io 4 5 #創建字典 6 def dictlist(filepath): 7 dicts = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()] 8 return dicts 9 10 dicts = dictlist('E://word2.txt') # 這里去重詞的路徑 11 f2=open("E:/word4.txt","a+",encoding='utf-8') # 這里為寫入的新文件 12 f=open("E:/word3.txt","r+",encoding='utf-8') # 這里為要處理的文件 13 for line in f: 14 if line.strip() not in dicts: 15 f2.write(line.strip()+"\n") 16 f.close() 17 f2.close()