【Python成長之路】詞雲圖制作

本文轉載自查看原文 2020-01-22 20:10 1088

【寫在前面】

以前看到過一些大神制作的詞雲圖，覺得效果很有意思。如果有朋友不了解詞雲圖的效果，可以看下面的幾張圖（圖片都是網上找到的）；

網上找了找相關的軟件，有些軟件制作還要付費。結果前幾天在大神的公眾號里的文章中看到了python也能實現，而且效果也很不錯。那還等什么，不趕緊盤它？

【示例代碼】

 1 # coding=utf-8
 2 # @Auther : "鵬哥賊優秀"
 3 # @Date : 2019/7/31
 4 # @Software : PyCharm
 5 import numpy as np
 6 import jieba
 7 from PIL import Image
 8 from wordcloud import WordCloud, STOPWORDS
 9 import matplotlib.pyplot as plt
10  
11 def draw_word_cloud(word):
12     words = jieba.cut(word)
13     wordstr = " ".join(words)
14     sw = set(STOPWORDS)
15     sw.add("ok")
16     mask = np.array(Image.open('2.jpg'))
17     wc = WordCloud(
18         font_path='C:/Windows/Fonts/simhei.ttf',  # 設置字體格式
19         mask=mask,
20         max_words=200,
21         max_font_size=100,
22         stopwords=sw,
23         scale=4,
24     ).generate(wordstr)
25  
26     # 顯示詞雲圖
27     plt.imshow(wc)
28     plt.axis("off")
29     plt.show()
30     # 保存詞雲圖
31     wc.to_file('result.jpg')
32  
33 if __name__ == "__main__":
34     with open("test2.txt", "rb") as f:
35         word = f.read()
36     draw_word_cloud(word)

【效果如下】

【知識點】

1、詞雲圖制作前，需要先准備幾個東西：

（1）下載python wordcloud庫，也是詞圖庫制作的關鍵庫。我在下載這個庫時，經常因為網絡超時導致下載失敗，怎么辦呢？多試幾次唄；

（2）numpy庫，用於圖片處理，將圖片讀取后解析成數組；

（3）如果要對中文句子進行分詞，那么需要jieba庫；如果是英文分詞，那可以不下載；

（4）如果要在界面上直接展示詞雲圖，那么需要matlplotlib來畫圖；

（5）要處理圖片，根據少不了PIL，畢竟它可是官方的圖像處理庫；

2、接下來，就是准備要分析的內容。示例代碼中的txt內容，是我上一篇文章。然后就是詞雲圖的形狀。示例代碼中的圖片2.jpg原圖如下：

3、准備工作做完了，那自然就開始編碼了。

（1）jieba.cut（）：就是對txt內容進行分詞了，注意得到的是個generator，因此需要將其轉成字符串；當然也可以使用jieba.lcut（），這樣得到的就是列表了；

（2）STOPWORDS集合的設置：停用詞有什么呢？主要是對一些你不想要的單詞進行過濾，比如“好的”“可以”這類單詞。另外，在對停用詞進行過濾時，有兩種方法，一種是像示例代碼，將stopwords作為wordcloud方法的參數，這樣最簡單；也可以自己寫段代碼，人為過濾停用詞；

（3）將你要的詞雲圖形狀圖片打開，並作為參數傳給wordcloud方法

（4）wordcloud方法各參數的意義，可以參考其他帖子：

https://blog.csdn.net/kouyi5627/article/details/80530569

里面我想着重講的是regexp參數，即正則表達式。沒錯，就是正則表達式，有了這個參數，我們可以用正則表達式規則進一步實現自己的單詞過濾，比如\d只顯示數字。我之前遇到過這個坑，下面再講。

另外，scale=4生成的圖片一般是500KB左右，如果不填，默認只有10幾KB；

（5）對內容進行生成詞雲圖時，generate方法最簡單，直接將字符串傳進來就可以；generate_from_frequencies方法的話，需要傳入字典，並自己統計好每個單詞的次數；

（6）界面顯示詞雲圖的代碼很簡單，axis("off")是為了不顯示坐標，這樣更美觀；

（7）即將生成的詞雲圖保存到本地，也不多解釋。

綜上，大致就是示例代碼的流程，是不是蠻簡單的？那自己動手來玩一次吧。

4、下面我再講講自己在制作詞雲圖遇到的坑。

一開始我是想對各期雙色球號碼進行詞雲圖分析的，結果一直報錯，錯誤如下：

ValueError: We need at least 1 word to plot a word cloud, got 0.

意思就是說我傳入的wordstr是空的？怎么可能呢，我明明有數字呀？最后我在wordcloud方法的官方說明中找到了原因：

看到沒？regexp參數如果不填寫的話，默認是會自動過濾掉單個詞的，因此數字就是因為這個原因一直被過濾了。怎么解決呢？有兩個辦法，第一就是傳入regexp參數，比如regexp="\d*"；第二種方法就是用

generate_from_frequencies方法，這樣因為有每個數字的頻繁在，就不會自動被過濾掉了。從我自己的使用結果來看，還是用第二種方法的效果好看點。

如果大家覺得看了有所幫助或者喜歡的話，可以關注我的公眾號“鵬哥賊優秀”，謝謝大家！

HDC.Cloud 華為開發者大會2020 即將於2020年2月11日-12日在深圳舉辦，是一線開發者學習實踐鯤鵬通用計算、昇騰AI計算、數據庫、區塊鏈、雲原生、5G等ICT開放能力的最佳舞台。

歡迎報名參會（https://www.huaweicloud.com/HDC.Cloud.html?utm_source=&utm_medium=&utm_campaign=&utm_content=techcommunity）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 詞雲wordcloud類介紹&python制作詞雲圖&詞雲圖亂碼問題等小坑 python讀取excel制作柱狀圖和詞雲圖片 Python生成詞雲圖 python—帶形狀的詞雲圖 python詞雲圖之WordCloud python實現詞雲圖 python 繪制詞雲圖 python繪制詞雲圖 python中實現詞雲圖 python 詞雲圖簡單示例