- 什么是詞雲
詞雲又叫文字雲,是對文本數據中出現頻率較高的“關鍵詞”在視覺上的突出呈現,形成關鍵詞的渲染形成類似雲一樣的彩色圖片,從而一眼就可以領略文本數據的主要表達意思。
- 准備工作:
python開發環境、wordcloud、jieba、matplotlib、numpy 、PIL 等庫文件安裝好。
-
pip 安裝方法:
- pip install xxx
- 使用idea 直接安裝
wordcloud生成詞雲的原理簡介
wordcloud生成詞雲的原理其實並不復雜,大體分成5步(具體可自行查看源碼):1.wordcloud制作詞雲時,首先要對對文本數據進行分詞,使用process_text()方法,這一步的主要任務是去除停用詞
2.第二步是計算每個詞在文本中出現的頻率,生成一個哈希表。詞頻用於確定一個詞的重要性
3.根據詞頻的數值按比例生成一個圖片的布局,類IntegralOccupancyMap 是該詞雲的算法所在,是詞雲的數據可視化方式的核心。生成詞的顏色、位置、方向等
4.最后將詞按對應的詞頻在詞雲布局圖上生成圖片,核心方法是generate_from_frequencies,不論是generate()還是generate_from_text()都最終用到generate_from_frequencies
完成詞雲上各詞的着色,默認是隨機着色
5.詞語的各種增強功能大都可以通過wordcloud的構造函數實現,里面提供了22個參數,還可以自行擴展。
- demo:
# coding:utf-8 import matplotlib.pyplot as plt from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS import jieba import numpy as np from PIL import Image # 讀入背景圖片 abel_mask = np.array(Image.open("/home/djh/PycharmProjects/source/test.jpg")) # 讀取要生成詞雲的文件 text_from_file_with_apath = open('/home/djh/PycharmProjects/source/a.txt').read() # 通過jieba分詞進行分詞並通過空格分隔 wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all=True) wl_space_split = " ".join(wordlist_after_jieba) # my_wordcloud = WordCloud().generate(wl_space_split) 默認構造函數 my_wordcloud = WordCloud( background_color='white', # 設置背景顏色 mask=abel_mask, # 設置背景圖片 max_words=200, # 設置最大現實的字數 stopwords=STOPWORDS, # 設置停用詞 font_path='/home/djh/win_font/simkai.ttf', # 設置字體格式,如不設置顯示不了中文 max_font_size=50, # 設置字體最大值 random_state=30, # 設置有多少種隨機生成狀態,即有多少種配色方案 scale=.5 ).generate(wl_space_split) # 根據圖片生成詞雲顏色 image_colors = ImageColorGenerator(abel_mask) # my_wordcloud.recolor(color_func=image_colors) # 以下代碼顯示圖片 plt.imshow(my_wordcloud) plt.axis("off") plt.show()