import re f = open('geci.txt','r',encoding="gbk") word = f.read() f.close() p2 = re.compile(r'[^\u4e00-\u9fa5]') zh = "".join(p2.split(word)).strip() print(zh)
txt另存為,編碼選ANSI(默認)的話,打開文件時要加上encoding=gbk
中文編碼范圍是u4e00到u9fa5
所以可以利用正則表達式
pypinyin
http://pypinyin.mozillazg.com/zh_CN/master/usage.html
>>> from pypinyin import pinyin, lazy_pinyin, Style >>> pinyin('中心') [['zhōng'], ['xīn']] >>> pinyin('中心', heteronym=True) # 啟用多音字模式 [['zhōng', 'zhòng'], ['xīn']] >>> pinyin('中心', style=Style.FIRST_LETTER) # 設置拼音風格 [['z'], ['x']] >>> pinyin('中心', style=Style.TONE2, heteronym=True) [['zho1ng', 'zho4ng'], ['xi1n']] >>> lazy_pinyin('中心') # 不考慮多音字的情況 ['zhong', 'xin']