中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。 分詞模塊jieba,它是python比較好用的分詞模塊。待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建議直接輸入 GBK 字符串,可能無法預料地錯誤解碼成 UTF-8 支持三種分詞模式 1 精確模式,試圖將句子最精確地切開,適合文本分析; 2 全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義; 3 搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜索引擎分詞。
|
#coding=utf-8 |