一、安裝jieba庫
在命令提示符中輸入“pip install jieba” 安裝jieba 庫。
二、jieba庫的功能
功能 1):分詞
jieba.cut方法接受兩個輸入參數: 1) 第一個參數為需要分詞的字符串 2)cut_all參數用來控制是否采用全模式
jieba.cut_for_search方法接受一個參數:需要分詞的字符串,該方法適合用於搜索引擎構建倒排索引的分詞,粒度比較細
注意:待分詞的字符串可以是gbk字符串、utf-8字符串或者unicode
jieba.cut以及jieba.cut_for_search返回的結構都是一個可迭代的generator,可以使用for循環來獲得分詞后得到的每一個詞語(unicode),也可以用list(jieba.cut(...))轉化為list
代碼示例( 分詞 )
功能 2) :添加自定義詞典
開發者可以指定自己自定義的詞典,以便包含jieba詞庫里沒有的詞。雖然jieba有新詞識別能力,但是自行添加新詞可以保證更高的正確率 。
功能 3) :關鍵詞提取
jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
三、安裝后使用