1. 作用:中文文本通過分詞獲得單個詞語,屬於第三方庫,需要提前cmd+r 打開命令行安裝, <pip install jieba>
2. 模式:共3種;no.1: 精確模式 : 把文本精確地分開,不存在冗余
no.2: 全模式 : 把文本中所有可能存在的詞語都掃描出來,存在冗余
no.3: 搜索引擎模式 : 在精確模式的基礎上,對長詞再次切分,有冗余
3. 常用函數
函數 | 描述 |
jieba.lcut() | 返回一個列表類型的分詞結果,沒有冗余 |
jieba.lcut(s,cut_all=True) | 返回一個列表類型的分詞結果,有冗余 |
jieba.lcut_for_seach(s) | 返回一個列表類型的分詞結果,有冗余 |
jieba.add_word(w) | 向分詞詞典增加新詞w |
4. 案例:
import jieba #導入jieba庫 txt = "我看見他戴着黑布小帽,穿着黑布大馬褂,深青布棉袍,蹣跚地走到鐵道邊,慢慢探身下去,尚不大難。可是他穿過鐵道,要爬上那邊月台,就不容易了。"
res = jieba.lcut(txt) #精確分詞模式,沒有冗余
print(res)
res1 = jieba.lcut(txt,cut_all=True) #全分詞模式,有冗余
print(res1)
res2 = jieba.lcut_for_search(txt) #搜素引擎分詞模式,有冗余
print(res2)
run res , res1, res2 結果: