python 中文分詞庫 jieba庫


jieba庫概述:

 jieba是優秀的中文分詞第三方庫

 中文文本需要通過分詞獲得單個的詞語

 jieba是優秀的中文分詞第三方庫,需要額外安裝

jieba庫分為精確模式、全模式、搜索引擎模式

原理

1.利用一個中文詞庫,確定漢子之間的關系概率

2.漢字間概率大的組成詞組,形成分詞結果

3.除了分詞,用戶還可以添加自定義的詞組

安裝

pip install jieba 如果下載失敗需要使用 -i 轉鏡像源可以參考這個博客https://www.cnblogs.com/love2000/p/11639572.html

 

提示下載成功

精准模式

jieba.lcut(s)

 

全模式

jieba.lcut(s,cut_all=True)

 

搜索引擎模式

jieba.lcut_for_search(s)

 

模式說明:

 精確模式、全模式、搜索引擎模式

 精確模式:把文本精確的切分開,不存在冗余單詞

 全模式:把文本中所有可能的詞語都掃描出來,有冗余

 搜索引擎模式:在精確模式基礎上,對長詞再次切分


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM