【寫在前面】
以前看到過一些大神制作的詞雲圖 ,覺得效果很有意思。如果有朋友不了解詞雲圖的效果,可以看下面的幾張圖(圖片都是網上找到的);

網上找了找相關的軟件,有些軟件制作 還要付費。結果前幾天在大神的公眾號里的文章中看到了python也能實現,而且效果也很不錯 。那還等什么,不趕緊盤它?
【示例代碼】
1 # coding=utf-8 2 # @Auther : "鵬哥賊優秀" 3 # @Date : 2019/7/31 4 # @Software : PyCharm 5 import numpy as np 6 import jieba 7 from PIL import Image 8 from wordcloud import WordCloud, STOPWORDS 9 import matplotlib.pyplot as plt 10 11 def draw_word_cloud(word): 12 words = jieba.cut(word) 13 wordstr = " ".join(words) 14 sw = set(STOPWORDS) 15 sw.add("ok") 16 mask = np.array(Image.open('2.jpg')) 17 wc = WordCloud( 18 font_path='C:/Windows/Fonts/simhei.ttf', # 設置字體格式 19 mask=mask, 20 max_words=200, 21 max_font_size=100, 22 stopwords=sw, 23 scale=4, 24 ).generate(wordstr) 25 26 # 顯示詞雲圖 27 plt.imshow(wc) 28 plt.axis("off") 29 plt.show() 30 # 保存詞雲圖 31 wc.to_file('result.jpg') 32 33 if __name__ == "__main__": 34 with open("test2.txt", "rb") as f: 35 word = f.read() 36 draw_word_cloud(word)
【效果如下】

【知識點】
1、詞雲圖 制作前,需要先准備幾個東西:
(1)下載python wordcloud庫,也是詞圖庫制作的關鍵庫。我在下載這個庫 時,經常因為網絡超時導致下載失敗,怎么辦呢?多試幾次唄;
(2)numpy庫,用於圖片處理,將圖片讀取后解析成數組;
(3)如果要對中文句子進行分詞,那么需要jieba庫;如果是英文分詞,那可以不下載;
(4)如果要在界面上直接展示詞雲圖 ,那么需要matlplotlib來畫圖;
(5)要處理圖片,根據少不了PIL,畢竟它可是官方的圖像處理庫;
2、接下來,就是准備要分析的內容。示例代碼中的txt內容,是我上一篇文章。然后就是詞雲圖的形狀。示例代碼中的圖片2.jpg原圖如下:

3、准備工作 做完了,那自然就開始編碼了。
(1)jieba.cut():就是對txt內容進行分詞了,注意得到的是個generator,因此需要將其轉成字符串;當然也可以使用jieba.lcut(),這 樣得到的就是列表了;
(2)STOPWORDS集合的設置:停用詞有什么呢?主要是對一些你不想要的單詞進行過濾,比如“好的”“可以”這 類單詞。另外,在對停用詞進行過濾時,有兩種方法,一種是像示例代碼,將stopwords作為wordcloud方法的參數,這樣最簡單;也可以自己寫段代碼,人為過濾停用詞;
(3)將你要的詞雲圖形狀圖片打開,並作為參數傳給wordcloud方法
(4)wordcloud方法各參數的意義,可以參考其他帖子:
https://blog.csdn.net/kouyi5627/article/details/80530569
里面我想着重講的是regexp參數,即正則表達式。沒錯,就是正則表達式,有了這個參數,我們可以用正則表達式規則進一步實現自己的單詞過濾,比如\d只顯示數字。我之前遇到過 這 個坑,下面再講。
另外,scale=4生成的圖片一般是500KB左右,如果不填,默認只有10幾KB;
(5)對內容進行生成詞雲圖時,generate方法最簡單,直接將字符串傳進來就可以;generate_from_frequencies方法的話,需要傳入字典,並自己統計好每個單詞的次數;
(6)界面顯示詞雲圖的代碼很簡單,axis("off")是為了不顯示坐標,這樣更美觀;
(7)即將生成的詞雲圖保存到本地,也不多解釋。
綜上,大致就是示例代碼 的流程,是不是蠻簡單的?那自己動手來玩一次吧。
4、下面我再講講自己在制作詞雲圖遇到的坑。
一開始我是想對各期雙色球號碼進行詞雲圖分析的,結果一直報錯,錯誤如下:
ValueError: We need at least 1 word to plot a word cloud, got 0.
意思就是說我傳入的wordstr是空的?怎么可能呢,我明明有數字呀?最后我在wordcloud方法的官方說明中找到了原因:

看到沒?regexp參數如果不填寫的話,默認是會自動過濾掉單個詞的,因此數字就是因為這個原因一直被過濾了。怎么解決呢?有兩個辦法,第一就是傳入regexp參數,比如regexp="\d*";第二種方法就是用
generate_from_frequencies方法,這樣因為有每個數字的頻繁在,就不會自動被過濾掉了。從我自己的使用結果來看,還是用第二種方法的效果好看點。
如果大家覺得看了有所幫助或者喜歡的話,可以關注我的公眾號“鵬哥賊優秀”,謝謝大家!
HDC.Cloud 華為開發者大會2020 即將於2020年2月11日-12日在深圳舉辦,是一線開發者學習實踐鯤鵬通用計算、昇騰AI計算、數據庫、區塊鏈、雲原生、5G等ICT開放能力的最佳舞台。
歡迎報名參會(https://www.huaweicloud.com/HDC.Cloud.html?utm_source=&utm_medium=&utm_campaign=&utm_content=techcommunity)

