中文的分詞+詞頻統計

本文轉載自查看原文 2018-03-28 16:18 1282

下載一長篇中文文章。

從文件讀取待分析文本。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安裝與使用jieba進行中文分詞。

pip install jieba

import jieba

list(jieba.lcut(news))

生成詞頻統計

排序

排除語法型詞匯，代詞、冠詞、連詞

輸出詞頻最大TOP20

代碼

import jieba
with open('novel.txt','r',encoding="utf-8") as file:
    novel = file.read()

punctuation = '。，；！？、'
for l in punctuation:
    novel = novel.replace(l,'')

no_list = list(jieba.cut(novel))
dic = dict()
for i in no_list:
    if len(i)!=1:
        dic[i] = novel.count(i)

del_word = { '\n',' '}

for i in del_word:
    if i in dic:
        del dic[i]
dic = sorted(dic.items(),key=lambda x:x[1],reverse = True)
for i in range(20):
    print(dic[i])

截圖如下

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python中文分詞及詞頻統計 Hadoop上的中文分詞與詞頻統計實踐 Python 分詞並統計詞頻 Python大數據：jieba 中文分詞，詞頻統計 Hadoop的改進實驗（中文分詞詞頻統計及英文詞頻統計）（1/4） python進行分詞及統計詞頻中文詞頻統計中文詞頻統計【python】利用jieba中文分詞進行詞頻統計及生成詞雲使用ES對中文文章進行分詞，並進行詞頻統計排序