import re def clean(line): pattern = re.compile(u'[^\u4e00-\u9fa5]') #中文的范圍為\u4e00-\u9fa5 line = re.sub(pattern,'',line) #將其中所有非中文字符替換 return line with open('《邊城》.txt' , 'r' , encoding='utf-8') as f: s=f.read() #讀取原文本 s=clean(s) #刪除其中符號、數字等非中文字符
import re def clean(line): pattern = re.compile(u'[^\u4e00-\u9fa5]') #中文的范圍為\u4e00-\u9fa5 line = re.sub(pattern,'',line) #將其中所有非中文字符替換 return line with open('《邊城》.txt' , 'r' , encoding='utf-8') as f: s=f.read() #讀取原文本 s=clean(s) #刪除其中符號、數字等非中文字符
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。