NLP實現文本分詞+在線詞雲實現工具


實現文本分詞+在線詞雲實現工具

 

詞雲是NLP中比較簡單而且效果較好的一種表達方式,說到可視化,R語言當仍不讓,可見R語言︱文本挖掘——詞雲wordcloud2包

當然用代碼寫詞雲還是比較費勁的,網上也有一些成型的軟件供大家使用。

本節轉載於金磚咖啡館公眾號

我們詞雲制作工具是目前非常流行的tagxedo,tagxedo對於英文的分詞做的很好(廢話,英文單詞之間有空格),但是對於中文分詞做的不好,於是我們需要用到另外一個在線工具http://life.chacuo.net/convertexportword(百度找的,你也可以用別的),將中文的詞和詞之間加上空格(分詞)。

 

(1)打開分詞網站http://life.chacuo.net/convertexportword,將你需要做詞雲的文本放到第一個框里,我們這里就直接再搜狐上找了一篇文章(http://stock.sohu.com/20160422/n445480002.shtml),然后點擊“中文分詞”按鈕,你就會發現,網站就把第一個框里的文本分詞結果放在了第二個框里(加了空格)。將第二個框的結果全選,然后“復制”,備用。

 

(2)打開詞雲網站:http://www.tagxedo.com/app.html,(注意:第一次打開的時候會讓你安裝“Silverlight”,你只需要按照指示下載安裝,然后刷新上面的鏈接。

有時候打不開,可參考一些其他詞雲網站。

 

接下來的步驟如下:

a.加載文本。打開load,在“enter text”里面將前面復制的分詞后文本粘貼進去,再按“Submit”。(等待一下,等下面的進度條讀完)。

 

b.加載圖片。為了做個性化詞雲,我提前准備了一張奧巴馬的照片。點擊左邊“Shape”會彈出圖片菜單,我們選擇下方的“AddImage”(如果你想用內置的圖片直接在彈出菜單里面選擇就好了)。

c.圖片設置。點擊“AddImage”,加載完圖片后,菜單會讓你做一些設置,只要是調整threshold和Blur(調整邊界和模糊度)。下面還有一些設置文字擺放位置的,自己點一下,很容易摸索,最后點擊“accept”,運行一下就看到結果了。

d.保存。點擊“save”,選擇自己要的圖片大小,就可以保存了。(也就得到最上面的效果咯)

e.詞頻。如果想看詞頻或者像刪除某些不需要的詞(比如“的”),那么單機“word|layoutoptions”里面的“skip”菜單,里面有詳細詞頻,不需要的詞,直接點“Keep”就變成“Skip”了(也就是刪除了)。

二、Wordle

本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款?   36大數據》

體驗詞雲:http://www.wordle.net/

這些年比較火的一款詞雲軟件,Wordle是一個用於從文本生成詞雲圖而提供的游戲工具,詞雲圖會更加突出話題並頻繁地出現在源文本,它的優點是可以快速的分析文本或網站的詞頻,並以多種多種風格展示,且支持文字字體選擇和用戶自定義顏色。做完詞雲圖,生成圖像后還可以保存在網絡之中供你查看、鏈接、下載以及與好友分享。

由於Wordle目前只支持英文,所以應在Excel或記事本里先將中文信息轉換成Wordle可以識別的語言,即英文或數字。

三、WordItOut

本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款?   36大數據》

體驗詞雲:http://worditout.com/

WordItOut網站很人性,還給用戶解釋什么是詞雲以及詞雲的作用等信息。它操作簡單,進入網站后只需要輸入一段文本,然后就可以生成各種樣式的“雲”文字。用戶可以根據自己的需要對WordItOut進行再設計,比如顏色、字符、字體、背景、文字位置等,保存下載后,可以復制。

但是WordItOut是不識別中文的,如果輸入中英混合的文本,保存后只顯示英文字體,對於不懂英文的同學是比較痛苦的。

———————————————————————————————————————— 四、Tagul

 

本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款?   36大數據》

體驗詞雲:https://tagul.com/

Tagul雲可以自定義字體、詞雲的形狀(有愛心、BUS、雪人、人像、UFO等),顏色等,做出來的詞雲圖很酷炫,為網站訪問者提供良好的用戶體驗。用戶可以在網站做好詞雲圖,然后印在衣服、杯子、鼠標墊等地方,自己設計身邊的物件,感覺很有成就感,很實用的網站。

———————————————————————————————————

 

五、ToCloud

 

本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款?   36大數據》

ToCloud

體驗詞雲:http://www.tocloud.com/

ToCloud是一個在線免費標簽雲生成器,你可以設置詞的長度和頻率。ToCloud整個頁面看着有點亂的感覺,但是可千萬不要小看它,工具非常好用,它能提取短語,是一個比較好的標簽雲工具之一利用詞頻生成詞雲,你可以快速了解頁面優化了某些單詞。

現在,來兩款國內的數據產品,絕對國產,再也不用擔心英文不好或者中英文互導麻煩了。

————————————————————————————————————————

 

 

六、圖悅

 

本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款?   36大數據》

1、圖悅

體驗詞雲:http://www.picdata.cn/

這款國內的在線詞頻分析工具,在長文本自動分詞並制作詞雲方面還是很出眾的,而且也容易上手,還可以自定義定制圖形模板:標准、微信、地圖等,切換自如,用起來體驗很不錯。

但是圖悅在導出excel詞頻有一些不足的地方,不介意的話可以忽略。

 

————————————————————————————————————————

 

 

七、BDP個人版

 

本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款?   36大數據》 2、BDP個人版

體驗詞雲:https://me.bdp.cn/home.html

這是一款數據可視化工具,除了詞雲,還有很多其他酷炫的圖表,如GIS地圖、漏斗圖等。BDP很容易上手,直接把詞語這個數據拉到維度欄,再選擇詞雲就瞬間呈現詞雲圖表,BDP會自動算好詞頻,你可以設置顏色,快速實現詞雲可視化。

不足之處,BDP不是專門制作詞雲的工具,但是還有幾十種圖表供你使用,是一款比較不錯的數據分析工具。

這么多款詞雲制作工具,大家自行選擇吧,感興趣的話都可以試試,會有很多有意思的發現,原來詞雲可視化是如此簡單,瞬間覺得自己棒棒的。

 

demo2:jieba + https://wordart.com/

用jieba分詞提取關鍵詞做漂亮的詞雲

        

 

               

用到的工具

  1. 原始數據:《白夜行》小說,txt格式(我是用calibre把原來mobi格式的書轉成txt的)。后期可以用爬蟲爬點網頁數據做原始數據。為簡單就先用txt練手好了。
  2. 提取關鍵詞:jieba分詞、停用詞表
  3. 在線詞雲生成工具:TAGUL

簡單分析一下

生成詞雲最關鍵的問題是中文分詞,統計分析各個詞的權重(權重較高的字體顯示較大)。這些問題jieba分詞已經幫我們解決了。我們只需要import jieba.analyse,使用jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())方法即可,當然只是提取關鍵詞還是不夠的,因為有些沒有意義的常用詞諸如“我的”、“或者”、“一個”等詞,會出現在結果里面,還需要一個“停用詞表”來幫我們過濾結果。 我們的目標是提取關鍵詞,並得到“關鍵詞+制表符+權重”的文本,這里關鍵詞和權重用制表符隔開是為了在用在線工具的時候,能順利導入權重的值,決定詞的大小(size)。

 

關鍵詞和size中間用制表符分開

 

步驟:

  1. 安裝jieba pip install jieba
  2. 准備好txt文件和停用詞表(網上可以下載到,txt格式即可)
  3. 編寫代碼
import jieba.analyse

path = '你的txt文件路徑'
file_in = open(path, 'r')
content = file_in.read()

try:
    jieba.analyse.set_stop_words('你的停用詞表路徑')
    tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True)
    for v, n in tags:
        #權重是小數,為了湊整,乘了一萬
        print v + '\t' + str(int(n * 10000))

finally:
    file_in.close()

運行結果如下:

 

4.打開TAGUL,開始制作詞雲,把結果貼進import words里

 
5.選個shape(詞雲輪廓)
 
6.在fonts中,導入一個中文字體,我用的微軟雅黑:
 
7.點擊visualize即可生成
 
8.Download and Share里面可以下載需要的格式。

 

參考文章:

http://www.jianshu.com/p/6a285dfa3d87

1.TF-IDF與余弦相似性的應用(一):自動提取關鍵詞 2.超簡單:快速制作一款高逼格詞雲圖 3.jieba的github

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM