對於一段英文,如果希望提取其中的的單詞,只需要使用字符串處理的split()方法即可,例如“China is a great country”。
然而對於中文文本,中文單詞之間缺少分隔符,這是中文及類似語言獨有的“分詞問題”。
jieba(“結巴”)是python中一個重要的第三方中文分詞函數庫。jieba庫是第三方庫,不是python安裝包自帶的,因此,需要通過pip指令安裝。
Windows 下使用命令安裝:在聯網狀態下,在命令行下輸入 pip install jieba
進行安裝,安裝完成后會提示安裝成功 。
- jieba分詞的三種模式
精確模式、全模式、搜索引擎模式
- 精確模式:把文本精確的切分開,不存在冗余單詞
- 全模式:把文本中所有可能的詞語都掃描出來,有冗余
- 搜索引擎模式:在精確模式基礎上,對長詞再次切分
- jieba庫常用函數
- 舉例如下
jieba._lcut("中華人民共和國是一個偉大的國家")
jieba._lcut("中華人民共和國是一個偉大的國家",cut_all=True)
jieba._lcut_for_search("中華人民共和國是一個偉大的國家")
運行結果: