中文詞頻統計


1.下載一中文長篇小說,並轉換成UTF-8編碼

    《小王子》

2.使用jieba庫,進行中文詞頻統計,輸出TOP20的詞及出現次數

import jieba

txt=open('F:\\小王子.txt','r',encoding='utf-8').read()
words=list(jieba.cut(txt))

exp={', '}

keys=set(words)-exp

dic={}
for w in keys:
    dic[w]=words.count(w)

wc=list(dic.items())
wc.sort(key=lambda x:x[1],reverse=True)

for i in range(20):
    print(wc[i])

 

 

3.排除一些無意義詞、合並同一詞

import jieba

txt=open('F:\\小王子.txt','r',encoding='utf-8').read()
words=list(jieba.cut(txt))

exp={', '}

keys=set(words)-exp

dic={}
for w in keys:
    if len(w)>1:
        dic[w]=words.count(w)

wc=list(dic.items())
wc.sort(key=lambda x:x[1],reverse=True)

for i in range(15):
    print(wc[i])

 

4.對詞頻統計結果做簡單的解讀

本篇小說出現次數最多的詞是小王子,本文的主人公就是小王子。而且星星,星球出現次數也較多,也對應了《小王子》這本書給人的夢幻,想象空間!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM