python入門之jieba庫的使用

本文轉載自查看原文 2019-10-18 18:52 300 python/ jieba/ 入門

　　對於一段英文，如果希望提取其中的的單詞，只需要使用字符串處理的split()方法即可，例如“China is a great country”。

然而對於中文文本，中文單詞之間缺少分隔符，這是中文及類似語言獨有的“分詞問題”。

　　jieba（“結巴”）是python中一個重要的第三方中文分詞函數庫。jieba庫是第三方庫，不是python安裝包自帶的，因此，需要通過pip指令安裝。

Windows 下使用命令安裝：在聯網狀態下，在命令行下輸入 pip install jieba 進行安裝，安裝完成后會提示安裝成功。

　　精確模式、全模式、搜索引擎模式

　　 - 精確模式：把文本精確的切分開，不存在冗余單詞
　　- 全模式：把文本中所有可能的詞語都掃描出來，有冗余

　　- 搜索引擎模式：在精確模式基礎上，對長詞再次切分

jieba._lcut("中華人民共和國是一個偉大的國家")

jieba._lcut("中華人民共和國是一個偉大的國家",cut_all=True)

jieba._lcut_for_search("中華人民共和國是一個偉大的國家")

運行結果：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python之jieba庫的使用 python jieba庫的基本使用 Python jieba庫的使用說明 jieba 分詞使用入門 Python 中的 jieba 庫 jieba庫的使用及實例 jieba庫基本使用 jieba庫的使用 Python使用jieba分詞 jieba庫及wordcloud庫的使用