jieba庫作為python中的第三方庫,在平時是非常實用的,例如一些網站就是利用jieba庫的中文分詞搜索關鍵詞進行工作。
一、安裝環境
window + python
二、安裝方式
在電腦命令符(cmd)中直接寫進下面的語句:pip install jieba 即可
三、jieba庫分詞的基本原理
1、利用中文詞庫,分析漢字與漢字之間的關聯幾率
2、還有分析漢字詞組的關聯幾率
3、還可以根據用戶自定義的詞組進行分析
四、jieba庫三種模式和對應的三個函數
精確模式 : 把文本精確的切分開,不存在冗余單詞 (就是切分開之后一個不剩的精確組合)
全模式 : 把文本中所有可能的詞語都掃描出來,有冗余
即: 可能有一個文本,可以從不同的角度來切分,變成不同的詞語。在全模式下把不同的詞語都挖掘出來
搜索引擎模式:在精確模式基礎上,對長詞語再次切分
函數 | 對應模式 |
lcut(s) | 精確模式,沒有多余 |
lcut(s,cut_all=Ture) | 全模式,有多余,長詞組 |
lcut_for_search(s) | 搜索引擎模式,有多余,長詞組 |
例如:
以上就是jieba庫的一些基本的知識。
五、jieba庫詞頻統計實例
利用jieba庫找出一篇文章中的關鍵詞
1、先把文章存為記事本的txt文件
2、利用結巴庫
代碼如下:
1 import jieba 2 txt = open("jiebatxt.txt","r", encoding = 'GBK').read() #讀取已存好的txt文檔 3 words = jieba.lcut(txt) #進行分詞 4 counts = {} 5 for word in words: 6 if len(word)== 1: #去掉標點字符和其它單字符 7 continue 8 else: 9 counts[word] = counts.get(word, 0) + 1 #計數 10 items = list(counts.items()) #把對象對象轉化為列表形式,利於下面操作 11 12 #sort() 函數用於對原列表進行排序,如果指定參數,則使用比較函數指定的比較函數 13 #reverse 排序規則,reverse = True 降序, reverse = False 升序(默認) 14 #key 是用來比較的參數 15 16 items.sort(key=lambda x: x[1], reverse = True) 17 for i in range(10): 18 word, count= items[i] 19 print("{0:<10}{1:>5}".format(word, count))
得出結果:
還有一種就是詞雲圖顯示,具體請進入下面鏈接:
https://www.cnblogs.com/liyanyinng/p/10652472.html
可以先看效果: