jieba模塊基本介紹

本文轉載自查看原文 2019-11-01 17:31 281

一.jieba模塊基本介紹

1.1 jieba模塊的作用

jieba是優秀的第三方中文詞庫

中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程

1.2 jieba模塊的安裝

pip install jieba  #cmd命令行

二.jieba庫的使用說明

2.1 jieba分詞的三種模式

精確模式：將句子最精確的分開，適合文本分析(無冗余)

全模式：句子中所有可以成詞的詞語都掃描出來，速度快，不能解決歧義(有冗余)

搜索引擎模式：在精確的基礎上，對長詞再次切分，提高召回率(有冗余)

三.jieba分詞的使用方法

3.1 三種模式的使用方法

#調用jieba詞庫 import jieba
#精確模式
jieba.cut(文件/文本等內容) #獲取可迭代對象
jieba.lcut()
#全模式
jieba.cut(cut_all=True) #獲取可迭代對象
jieba.lcut(cut_all=True)
#搜索引擎模式
jieba.cut_for_search() # 獲取可迭代對象
jieba.lcut_for_search()

3.2 jieba.cut與jieba.lcut的區別

jieba.cut生成的是一個生成器，generator，也就是可以通過for循環來取里面的每一個詞。

import jieba
txt = '狗比胡晨陽'
print(jieba.cut(txt))
#打印的內容
<generator object Tokenizer.cut at 0x000002004F5B8348>

jieba.lcut 直接生成的就是一個list

import jieba
txt = '狗比胡晨陽'
print(jieba.lcut(txt))
#打印的內容
runfile('E:/python項目/test.py', wdir='E:/python項目')
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.374 seconds.
Prefix dict has been built succesfully.
['狗', '比', '胡晨陽']

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python jieba模塊詳解 Python的jieba模塊簡介 Jieba分詞介紹模塊 jieba結巴分詞庫中文分詞淺析文本挖掘（jieba模塊的應用） $好玩的分詞——python jieba分詞模塊的基本用法 jieba python中jieba庫的介紹和應用 Python實戰案例，jieba模塊學習，簡單品讀小說 jieba分詞庫介紹-關鍵字提取