jieba庫概述:
jieba是優秀的中文分詞第三方庫
中文文本需要通過分詞獲得單個的詞語
jieba是優秀的中文分詞第三方庫,需要額外安裝
jieba庫分為精確模式、全模式、搜索引擎模式
原理
1.利用一個中文詞庫,確定漢子之間的關系概率
2.漢字間概率大的組成詞組,形成分詞結果
3.除了分詞,用戶還可以添加自定義的詞組
安裝
pip install jieba 如果下載失敗需要使用 -i 轉鏡像源可以參考這個博客https://www.cnblogs.com/love2000/p/11639572.html
提示下載成功
精准模式
jieba.lcut(s)
全模式
jieba.lcut(s,cut_all=True)
搜索引擎模式
jieba.lcut_for_search(s)
模式說明:
精確模式、全模式、搜索引擎模式
精確模式:把文本精確的切分開,不存在冗余單詞
全模式:把文本中所有可能的詞語都掃描出來,有冗余
搜索引擎模式:在精確模式基礎上,對長詞再次切分