中文词频统计


1.下载一中文长篇小说,并转换成UTF-8编码

    《小王子》

2.使用jieba库,进行中文词频统计,输出TOP20的词及出现次数

import jieba

txt=open('F:\\小王子.txt','r',encoding='utf-8').read()
words=list(jieba.cut(txt))

exp={', '}

keys=set(words)-exp

dic={}
for w in keys:
    dic[w]=words.count(w)

wc=list(dic.items())
wc.sort(key=lambda x:x[1],reverse=True)

for i in range(20):
    print(wc[i])

 

 

3.排除一些无意义词、合并同一词

import jieba

txt=open('F:\\小王子.txt','r',encoding='utf-8').read()
words=list(jieba.cut(txt))

exp={', '}

keys=set(words)-exp

dic={}
for w in keys:
    if len(w)>1:
        dic[w]=words.count(w)

wc=list(dic.items())
wc.sort(key=lambda x:x[1],reverse=True)

for i in range(15):
    print(wc[i])

 

4.对词频统计结果做简单的解读

本篇小说出现次数最多的词是小王子,本文的主人公就是小王子。而且星星,星球出现次数也较多,也对应了《小王子》这本书给人的梦幻,想象空间!


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM