python入門之jieba庫的使用


  對於一段英文,如果希望提取其中的的單詞,只需要使用字符串處理的split()方法即可,例如“China is a great country”。

 

 

 然而對於中文文本,中文單詞之間缺少分隔符,這是中文及類似語言獨有的“分詞問題”。

  jieba(“結巴”)是python中一個重要的第三方中文分詞函數庫。jieba庫是第三方庫,不是python安裝包自帶的,因此,需要通過pip指令安裝。

Windows 下使用命令安裝:在聯網狀態下,在命令行下輸入 pip install jieba 進行安裝,安裝完成后會提示安裝成功 。

 

  • jieba分詞的三種模式 

           精確模式、全模式、搜索引擎模式 

           精確模式:把文本精確的切分開,不存在冗余單詞
           - 全模式:把文本中所有可能的詞語都掃描出來,有冗余

           - 搜索引擎模式:在精確模式基礎上,對長詞再次切分

  •  jieba庫常用函數

 

 

  •  舉例如下

 jieba._lcut("中華人民共和國是一個偉大的國家")

jieba._lcut("中華人民共和國是一個偉大的國家",cut_all=True)

jieba._lcut_for_search("中華人民共和國是一個偉大的國家")

 運行結果:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM