Python_ jiba、snownlp中文分詞、pypinyin中文轉拼音


 1 import jieba    #導入jieba模塊
 2 x = '分詞的准確度直接影響了后續文本處理和挖掘算法的最終效果。'
 3 jieba.cut(x)    #使用默認詞庫進行分詞
 4 print(list(jieba.cut(x)))
 5 # ['分詞', '的', '准確度', '直接', '影響', '了', '后續', '文本處理', '和', '挖掘', '算法', '的', '最終', '效果', '。']
 6 print(list(jieba.cut('紙杯')))
 7 # ['紙杯']
 8 print(list(jieba.cut('花紙杯')))
 9 # ['花', '紙杯']
10 jieba.add_word('花紙杯')
11 print(list(jieba.cut('花紙杯')))
12 
13 
14 import snownlp  #導入snownlp
15 print(snownlp.SnowNLP('學而時習之,不亦說乎').words)
16 # ['學而', '時習', '之', ',', '不亦', '說乎']
17 print(snownlp.SnowNLP(x).words)
18 # ['分詞', '的', '准確度', '直接', '影響', '了', '后續', '文本', '處理', '和', '挖掘', '算法', '的', '最終', '效果', '。']
19 
20 
21 from pypinyin import lazy_pinyin,pinyin
22 print(lazy_pinyin('江西贛州')) #返回拼音
23 # ['jiang', 'xi', 'gan', 'zhou']
24 print(lazy_pinyin('江西贛州',1))    #帶聲調的拼音
25 # ['jiāng', 'xī', 'gàn', 'zhōu']
26 print(lazy_pinyin('江西贛州',2))    #另一種拼音風格
27 # ['jia1ng', 'xi1', 'ga4n', 'zho1u']
28 print(lazy_pinyin('江西贛州',3))    #只返回拼音首字母
29 # ['j', 'x', 'g', 'zh']
30 print(lazy_pinyin('重要',1))    #能夠根據詞組智能識別多音字
31 # ['zhòng', 'yào']
32 print(lazy_pinyin('重陽',1))
33 # ['chóng', 'yáng']
34 print(pinyin('江西')) #返回拼音
35 # [['jiāng'], ['xī']]
36 print(pinyin('重陽節',heteronym=True)) #返回多音字的所有讀音
37 # [['zhòng', 'chóng', 'tóng'], ['yáng'], ['jié', 'jiē']]
38 import jieba
39 x='中英文混合test123456'
40 print(lazy_pinyin(x))  #自動調用已安裝的pypinyin擴展分詞功能
41 # ['zhong', 'ying', 'wen', 'hun', 'he', 'test123456']
42 print(list(jieba.cut(x))) #自動調用jieba擴展分詞功能
43 # ['中英文', '混合', 'test123456']
44 x='江西的桃子真好吃'
45 print(sorted(x,key=lambda ch:lazy_pinyin(ch))) #按拼音對漢字進行排序
46 # ['吃', '的', '好', '江', '桃', '西', '真', '子']

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM