python讀取中文txt操作 轉化為拼音


import re
f = open('geci.txt','r',encoding="gbk")
word = f.read()
f.close()

p2 = re.compile(r'[^\u4e00-\u9fa5]')
zh = "".join(p2.split(word)).strip()

print(zh)

txt另存為,編碼選ANSI(默認)的話,打開文件時要加上encoding=gbk

中文編碼范圍是u4e00到u9fa5

所以可以利用正則表達式

pypinyin

http://pypinyin.mozillazg.com/zh_CN/master/usage.html

>>> from pypinyin import pinyin, lazy_pinyin, Style
>>> pinyin('中心')
[['zhōng'], ['xīn']]
>>> pinyin('中心', heteronym=True)  # 啟用多音字模式
[['zhōng', 'zhòng'], ['xīn']]
>>> pinyin('中心', style=Style.FIRST_LETTER)  # 設置拼音風格
[['z'], ['x']]
>>> pinyin('中心', style=Style.TONE2, heteronym=True)
[['zho1ng', 'zho4ng'], ['xi1n']]
>>> lazy_pinyin('中心')  # 不考慮多音字的情況
['zhong', 'xin']

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM