【把玩信息圖之標簽雲】看看我一年的郵件在扯什么


2013年開始了,用一個信息圖緬懷我的2012:用標簽雲展示我一年的郵件在扯什么。

整個標簽雲的制作過程利用現有技術,方便操作。

准備數據

利用郵件客戶端將2012年的郵件導出到目錄

image

 

然后用在控制台,用dir /b > input.txt 命令,僅僅將標題輸出到一個文件內容(這里是取巧了,只統計郵件標題,其實根據需要可以導出內容進行處理,方式不展開討論了)

image

 

統計詞頻

詞庫當然是利用現成的,在網上找了一個盤古分詞(盤古分詞:http://pangusegment.codeplex.com/),寫了幾行代碼調用完成了詞頻統計(只適用於小型統計)

編譯好的程序見附件,可直接使用:

1 輸入文本內容放入input.txt
2 運行xqptag.exe,生成詞頻在data.txt

如果需要修改詞庫,使用\pangu\DictManage.exe打開\Dictionaries下的Dict.dct文件進行添加修改

得到data.txt文件如圖所示:

image

 

數據處理

data.txt是按照詞頻順序排列的,以[詞]:[出現次數]這樣的格式排列

如果希望出現的未出現,可能是詞庫未包含,使用\pangu\DictManage.exe打開\Dictionaries下的Dict.dct文件進行添加修改,修改方法參考盤古官網說明。

如果不希望的詞出現,例如txt或者一些助詞之類,可手工處理。

 

生成標簽雲

在眾多標簽雲生成軟件中,我選擇了tagxedo,無需注冊:http://www.tagxedo.com/

訪問網站,點擊create

image

 

在load目錄中的enter text,輸入修改過的詞頻數據,點擊submit就會生成一個粗略的標簽雲

image

image

當然這個並不是我們想要的樣式,我還要進行調整:

最重要的一步:在word | layout option 中的word一頁 apply nonlatin heuristics 設置為no,這樣才不會將中文的詞分開

設置方向:Orientation中選擇方向Horizontal(水平)

選擇樣式、主題、顏色… 大家慢慢發掘

 

最后用save生成可下載的圖片文件,大功告成!

image


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM