python中jieba庫的介紹和應用


jieba庫作為python中的第三方庫,在平時是非常實用的,例如一些網站就是利用jieba庫的中文分詞搜索關鍵詞進行工作。

一、安裝環境

window + python

二、安裝方式

在電腦命令符(cmd)中直接寫進下面的語句:pip install jieba    即可

三、jieba庫分詞的基本原理

1、利用中文詞庫,分析漢字與漢字之間的關聯幾率

2、還有分析漢字詞組的關聯幾率

3、還可以根據用戶自定義的詞組進行分析

四、jieba庫三種模式和對應的三個函數

精確模式 : 把文本精確的切分開,不存在冗余單詞   (就是切分開之后一個不剩的精確組合) 

全模式 : 把文本中所有可能的詞語都掃描出來,有冗余

即: 可能有一個文本,可以從不同的角度來切分,變成不同的詞語。在全模式下把不同的詞語都挖掘出來

搜索引擎模式:在精確模式基礎上,對長詞語再次切分

函數 對應模式
lcut(s) 精確模式,沒有多余
lcut(s,cut_all=Ture) 全模式,有多余,長詞組
lcut_for_search(s) 搜索引擎模式,有多余,長詞組

例如:

以上就是jieba庫的一些基本的知識。

 五、jieba庫詞頻統計實例

利用jieba庫找出一篇文章中的關鍵詞

1、先把文章存為記事本的txt文件

2、利用結巴庫

代碼如下:

 1 import jieba
 2 txt = open("jiebatxt.txt","r", encoding = 'GBK').read()  #讀取已存好的txt文檔
 3 words = jieba.lcut(txt)          #進行分詞
 4 counts = {}
 5 for word in words:
 6     if len(word)== 1:            #去掉標點字符和其它單字符
 7         continue
 8     else:
 9         counts[word] = counts.get(word, 0) + 1  #計數
10 items = list(counts.items())    #把對象對象轉化為列表形式,利於下面操作
11 
12 #sort()  函數用於對原列表進行排序,如果指定參數,則使用比較函數指定的比較函數
13 #reverse 排序規則,reverse = True 降序, reverse = False 升序(默認)
14 #key 是用來比較的參數
15 
16 items.sort(key=lambda x: x[1], reverse = True)
17 for i in range(10):
18     word, count= items[i]
19     print("{0:<10}{1:>5}".format(word, count))

得出結果:

 還有一種就是詞雲圖顯示,具體請進入下面鏈接:

https://www.cnblogs.com/liyanyinng/p/10652472.html

可以先看效果:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM