Python 輕量化簡繁轉換


最近項目中用到了簡單的簡繁轉換,如果用OpenCC太重了,於是搜到了 zhconv 這個庫。

 

zhconv 提供基於 MediaWiki 詞匯表的最大正向匹配簡繁轉換,Python 2, 3 通用。

支持以下地區詞轉換:

  • zh-tw 台灣正體
  • zh-hk 香港繁體
  • zh-sg 馬新簡體
  • zh-hans 簡體
  • zh-hant 繁體

 

正好適合我不求轉換質量的輕量需求,所以介紹給更多需要的人。

而且雖然該項目stars很少,但中途發現作者還參與過維護jieba分詞。

 

調用也非常簡單

>>> from zhconv import convert
>>> convert('Python是一種動態的、面向對象的腳本語言', 'zh-hant')
'Python是一種動態的、面向對象的腳本語言'
復制代碼

 

支持對地區化詞語的轉換

>>> convert('計算機軟件', 'zh-tw')
'計算機軟體'
>>> convert('計算機軟體', 'zh-hans') # zh-hans只是逐字轉換
'計算機軟體'
>>> convert('計算機軟體', 'zh-cn')
'計算機軟件'
復制代碼

 

支持 MediaWiki 人工轉換語法

>>> from zhconv import convert_for_mw
>>> s = '張國榮曾在英國-{zh:利茲;zh-hans:利茲;zh-hk:列斯;zh-tw:里茲}-大學學習。'
>>> convert_for_mw(s, 'zh-hans')
'張國榮曾在英國利茲大學學習。'
>>> convert_for_mw(s, 'zh-hk')
'張國榮曾在英國列斯大學學習。'
>>> convert_for_mw(s, 'zh-tw')
'張國榮曾在英國里茲大學學習。'
復制代碼

 

當然對於復雜高精度的轉換需求,還是建議用專業的OpenCC 開源庫:

https://github.com/BYVoid/OpenCC

 

歡迎關注

微信公眾號:面向人生編程

編程思維不應只存留在代碼之中,更應伴隨於整個人生旅途,這個公眾號不只聊技術,還會聊產品/互聯網/經濟學等廣泛話題,所以也歡迎非程序員關注。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM