python中jieba庫的介紹和應用

本文轉載自查看原文 2019-06-01 15:12 3738

jieba庫作為python中的第三方庫，在平時是非常實用的，例如一些網站就是利用jieba庫的中文分詞搜索關鍵詞進行工作。

一、安裝環境

window + python

二、安裝方式

在電腦命令符（cmd）中直接寫進下面的語句：pip install jieba 即可

三、jieba庫分詞的基本原理

1、利用中文詞庫，分析漢字與漢字之間的關聯幾率

2、還有分析漢字詞組的關聯幾率

3、還可以根據用戶自定義的詞組進行分析

四、jieba庫三種模式和對應的三個函數

精確模式 ：把文本精確的切分開，不存在冗余單詞（就是切分開之后一個不剩的精確組合）

全模式 ：把文本中所有可能的詞語都掃描出來，有冗余

即：可能有一個文本，可以從不同的角度來切分，變成不同的詞語。在全模式下把不同的詞語都挖掘出來

搜索引擎模式：在精確模式基礎上，對長詞語再次切分

函數	對應模式
lcut(s)	精確模式，沒有多余
lcut(s,cut_all=Ture)	全模式，有多余，長詞組
lcut_for_search(s)	搜索引擎模式，有多余，長詞組

例如：

以上就是jieba庫的一些基本的知識。

五、jieba庫詞頻統計實例

利用jieba庫找出一篇文章中的關鍵詞

1、先把文章存為記事本的txt文件

2、利用結巴庫

代碼如下：

 1 import jieba
 2 txt = open("jiebatxt.txt","r", encoding = 'GBK').read()  #讀取已存好的txt文檔
 3 words = jieba.lcut(txt)          #進行分詞
 4 counts = {}
 5 for word in words:
 6     if len(word)== 1:            #去掉標點字符和其它單字符
 7         continue
 8     else:
 9         counts[word] = counts.get(word, 0) + 1  #計數
10 items = list(counts.items())    #把對象對象轉化為列表形式，利於下面操作
11 
12 #sort()  函數用於對原列表進行排序，如果指定參數，則使用比較函數指定的比較函數
13 #reverse 排序規則，reverse = True 降序， reverse = False 升序（默認）
14 #key 是用來比較的參數
15 
16 items.sort(key=lambda x: x[1], reverse = True)
17 for i in range(10):
18     word, count= items[i]
19     print("{0:<10}{1:>5}".format(word, count))

得出結果：

還有一種就是詞雲圖顯示，具體請進入下面鏈接：

https://www.cnblogs.com/liyanyinng/p/10652472.html

可以先看效果：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python 中的 jieba 庫 python中jieba庫詳解 Python之jieba庫的使用 python jieba庫的基本使用介紹一種安裝python第三方庫jieba庫的方法 python入門之jieba庫的使用 python實戰，中文自然語言處理，應用jieba庫來統計文本詞頻 python中random庫的基本介紹 python 中文分詞庫 jieba庫 Python jieba庫的使用說明