1.下載一中文長篇小說,並轉換成UTF-8編碼
《小王子》
2.使用jieba庫,進行中文詞頻統計,輸出TOP20的詞及出現次數
import jieba txt=open('F:\\小王子.txt','r',encoding='utf-8').read() words=list(jieba.cut(txt)) exp={', '} keys=set(words)-exp dic={} for w in keys: dic[w]=words.count(w) wc=list(dic.items()) wc.sort(key=lambda x:x[1],reverse=True) for i in range(20): print(wc[i])
3.排除一些無意義詞、合並同一詞
import jieba txt=open('F:\\小王子.txt','r',encoding='utf-8').read() words=list(jieba.cut(txt)) exp={', '} keys=set(words)-exp dic={} for w in keys: if len(w)>1: dic[w]=words.count(w) wc=list(dic.items()) wc.sort(key=lambda x:x[1],reverse=True) for i in range(15): print(wc[i])
4.對詞頻統計結果做簡單的解讀
本篇小說出現次數最多的詞是小王子,本文的主人公就是小王子。而且星星,星球出現次數也較多,也對應了《小王子》這本書給人的夢幻,想象空間!