中文詞頻統計

本文轉載自查看原文 2017-09-29 12:59 1239

1.下載一中文長篇小說，並轉換成UTF-8編碼

《小王子》

2.使用jieba庫，進行中文詞頻統計，輸出TOP20的詞及出現次數

import jieba

txt=open('F:\\小王子.txt','r',encoding='utf-8').read()
words=list(jieba.cut(txt))

exp={', '}

keys=set(words)-exp

dic={}
for w in keys:
    dic[w]=words.count(w)

wc=list(dic.items())
wc.sort(key=lambda x:x[1],reverse=True)

for i in range(20):
    print(wc[i])

3.排除一些無意義詞、合並同一詞

import jieba

txt=open('F:\\小王子.txt','r',encoding='utf-8').read()
words=list(jieba.cut(txt))

exp={', '}

keys=set(words)-exp

dic={}
for w in keys:
    if len(w)>1:
        dic[w]=words.count(w)

wc=list(dic.items())
wc.sort(key=lambda x:x[1],reverse=True)

for i in range(15):
    print(wc[i])

4.對詞頻統計結果做簡單的解讀

本篇小說出現次數最多的詞是小王子，本文的主人公就是小王子。而且星星，星球出現次數也較多，也對應了《小王子》這本書給人的夢幻，想象空間！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 中文詞頻統計 Python 中文詞頻統計 Python中文詞頻統計中文詞頻統計與詞雲生成中文詞頻統計與詞雲生成初學Hadoop之中文詞頻統計【大數據】中文詞頻統計【大數據】中文詞頻統計中文詞頻統計及詞雲制作中文詞頻統計與詞雲生成