Python詞雲(詞頻統計,掩膜顯示)


Python2.7 anaconda。安裝Wordcloud,網上有許多下載路徑,說一下掩模,就是在這個膜的區域才會有東西,當然這個與實際的掩模還有一定區別,這個詞頻顯示是把所有統計的詞,顯示在這個掩模圖片的非白色區域。

 (接下來就不用看着網上那些小軟件很羡慕,其實代碼就十行左右,你也可以)

from os import path
from scipy.misc import imread
import matplotlib.pyplot as plt

from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

# 獲取當前文件路徑
# __file__ 為當前文件, 在ide中運行此行會報錯,可改為
# d = path.dirname('.')
d = path.dirname(__file__)

# 
text = open(path.join(d, 't.txt')).read()

# 設置背景圖片,也就是掩膜圖像,在非白色部分我們的統計好的詞頻會顯示在這里
alice_coloring = imread(path.join(d, "b.jpg"))

wc = WordCloud(background_color="white", #背景顏色
#max_words=2000,# 詞雲顯示的最大詞數 mask=alice_coloring,#設置背景圖片 stopwords=STOPWORDS.add("said"), max_font_size=60, #字體最大值 random_state=50) #上述函數設計了詞雲格式 # 生成詞雲, 可以用generate輸入全部文本(中文不好分詞),也可以我們計算好詞頻后使用generate_from_frequencies函數 wc.generate(text) #文本詞頻統計函數,本函數自動統計詞的個數,以字典形式內部存儲,在顯示的時候詞頻大的,字體也大 # 從背景圖片生成顏色值 image_colors = ImageColorGenerator(alice_coloring) # 以下代碼顯示圖片 plt.figure() # recolor wordcloud and show # we could also give color_func=image_colors directly in the constructor plt.imshow(wc.recolor(color_func=image_colors)) plt.axis("off") # 繪制背景圖片為顏色的圖片


 
        

  示例圖像,文本分詞是直接用的英文(網上隨便粘貼一篇英文文章),它是以空格進行分詞的。如果是中文也可以用網上推薦的分詞器,或者你是做數據分析的,當然就知道怎么分詞了。

bra................嘿嘿嘿

圖片背景色為白色,分清圖片背景,和掩模,和掩模背景色(函數默認的是白色區域)

 詞頻分析,數據分析挖掘。

以后再PPT中也可以用啦!!!!!!!!!!!!!!!!!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM