Python 中文詞頻統計

本文轉載自查看原文 2018-03-28 19:50 3968

下載一長篇中文文章。

從文件讀取待分析文本。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安裝與使用jieba進行中文分詞。

pip install jieba

import jieba

list(jieba.lcut(news))

生成詞頻統計

排序

排除語法型詞匯，代詞、冠詞、連詞

輸出詞頻最大TOP20

import jieba

article = open('test.txt','r').read()
dele = {'。','！','？','的','“','”','（','）',' ','》','《','，'}
jieba.add_word('大數據')
words = list(jieba.cut(article))
articleDict = {}
articleSet = set(words)-dele
for w in articleSet:
    if len(w)>1:
        articleDict[w] = words.count(w)

articlelist = sorted(articleDict.items(),key = lambda x:x[1], reverse = True)

for i in range(10):
    print(articlelist[i])

運行截圖：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python中文詞頻統計 Python實現簡單中文詞頻統計示例 python統計英文詞頻中文詞頻統計與詞雲生成中文詞頻統計與詞雲生成中文詞頻統計與詞雲生成 Python 統計英文詞頻（txt格式) Hadoop的改進實驗（中文分詞詞頻統計及英文詞頻統計）（1/4） python英文與中文的詞頻統計 Python中文分詞及詞頻統計