1 import jieba #導入jieba模塊 2 x = '分詞的准確度直接影響了后續文本處理和挖掘算法的最終效果。' 3 jieba.cut(x) #使用默認詞庫進行分詞 4 print(list(jieba.cut(x))) 5 # ['分詞', '的', '准確度', '直接', '影響', '了', '后續', '文本處理', '和', '挖掘', '算法', '的', '最終', '效果', '。'] 6 print(list(jieba.cut('紙杯'))) 7 # ['紙杯'] 8 print(list(jieba.cut('花紙杯'))) 9 # ['花', '紙杯'] 10 jieba.add_word('花紙杯') 11 print(list(jieba.cut('花紙杯'))) 12 13 14 import snownlp #導入snownlp 15 print(snownlp.SnowNLP('學而時習之,不亦說乎').words) 16 # ['學而', '時習', '之', ',', '不亦', '說乎'] 17 print(snownlp.SnowNLP(x).words) 18 # ['分詞', '的', '准確度', '直接', '影響', '了', '后續', '文本', '處理', '和', '挖掘', '算法', '的', '最終', '效果', '。'] 19 20 21 from pypinyin import lazy_pinyin,pinyin 22 print(lazy_pinyin('江西贛州')) #返回拼音 23 # ['jiang', 'xi', 'gan', 'zhou'] 24 print(lazy_pinyin('江西贛州',1)) #帶聲調的拼音 25 # ['jiāng', 'xī', 'gàn', 'zhōu'] 26 print(lazy_pinyin('江西贛州',2)) #另一種拼音風格 27 # ['jia1ng', 'xi1', 'ga4n', 'zho1u'] 28 print(lazy_pinyin('江西贛州',3)) #只返回拼音首字母 29 # ['j', 'x', 'g', 'zh'] 30 print(lazy_pinyin('重要',1)) #能夠根據詞組智能識別多音字 31 # ['zhòng', 'yào'] 32 print(lazy_pinyin('重陽',1)) 33 # ['chóng', 'yáng'] 34 print(pinyin('江西')) #返回拼音 35 # [['jiāng'], ['xī']] 36 print(pinyin('重陽節',heteronym=True)) #返回多音字的所有讀音 37 # [['zhòng', 'chóng', 'tóng'], ['yáng'], ['jié', 'jiē']] 38 import jieba 39 x='中英文混合test123456' 40 print(lazy_pinyin(x)) #自動調用已安裝的pypinyin擴展分詞功能 41 # ['zhong', 'ying', 'wen', 'hun', 'he', 'test123456'] 42 print(list(jieba.cut(x))) #自動調用jieba擴展分詞功能 43 # ['中英文', '混合', 'test123456'] 44 x='江西的桃子真好吃' 45 print(sorted(x,key=lambda ch:lazy_pinyin(ch))) #按拼音對漢字進行排序 46 # ['吃', '的', '好', '江', '桃', '西', '真', '子']