jieba分詞庫的使用


1. 作用:中文文本通過分詞獲得單個詞語,屬於第三方庫,需要提前cmd+r 打開命令行安裝, <pip install jieba>

2. 模式:共3種;no.1: 精確模式 : 把文本精確地分開,不存在冗余

                          no.2: 全模式 : 把文本中所有可能存在的詞語都掃描出來,存在冗余

                          no.3: 搜索引擎模式 : 在精確模式的基礎上,對長詞再次切分,有冗余

3. 常用函數

 

函數 描述
jieba.lcut() 返回一個列表類型的分詞結果,沒有冗余
jieba.lcut(s,cut_all=True) 返回一個列表類型的分詞結果,有冗余
jieba.lcut_for_seach(s) 返回一個列表類型的分詞結果,有冗余
jieba.add_word(w) 向分詞詞典增加新詞w

4. 案例:

import jieba    #導入jieba庫

txt = "我看見他戴着黑布小帽,穿着黑布大馬褂,深青布棉袍,蹣跚地走到鐵道邊,慢慢探身下去,尚不大難。可是他穿過鐵道,要爬上那邊月台,就不容易了。" 

res = jieba.lcut(txt) #精確分詞模式,沒有冗余
print(res)

res1
= jieba.lcut(txt,cut_all=True) #全分詞模式,有冗余
print(res1)

res2
= jieba.lcut_for_search(txt) #搜素引擎分詞模式,有冗余
print(res2)

run res , res1, res2 結果:

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM