中文词频统计

本文转载自查看原文 2017-09-29 12:59 1239

1.下载一中文长篇小说，并转换成UTF-8编码

《小王子》

2.使用jieba库，进行中文词频统计，输出TOP20的词及出现次数

import jieba

txt=open('F:\\小王子.txt','r',encoding='utf-8').read()
words=list(jieba.cut(txt))

exp={', '}

keys=set(words)-exp

dic={}
for w in keys:
    dic[w]=words.count(w)

wc=list(dic.items())
wc.sort(key=lambda x:x[1],reverse=True)

for i in range(20):
    print(wc[i])

3.排除一些无意义词、合并同一词

import jieba

txt=open('F:\\小王子.txt','r',encoding='utf-8').read()
words=list(jieba.cut(txt))

exp={', '}

keys=set(words)-exp

dic={}
for w in keys:
    if len(w)>1:
        dic[w]=words.count(w)

wc=list(dic.items())
wc.sort(key=lambda x:x[1],reverse=True)

for i in range(15):
    print(wc[i])

4.对词频统计结果做简单的解读

本篇小说出现次数最多的词是小王子，本文的主人公就是小王子。而且星星，星球出现次数也较多，也对应了《小王子》这本书给人的梦幻，想象空间！

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 【大数据】中文词频统计【大数据】中文词频统计中文词频统计及词云制作中文词频统计与词云生成中文词频分析 Python 英文词频统计 py库： jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）完整的中英文词频统计 python实现简单的英文词频统计 python:Hamlet英文词频统计