NLTK是python環境中的一個非常流行的NLP庫,這篇記錄主要記錄NLTK的一些常見操作
1.去除網頁html標記
我們常常通過爬蟲獲取網頁信息,然后需要去除網頁的html標簽。為此我們可以這么做:
2.統計詞頻
這里使用的tokens就是上面圖中的tokens
3.去除停用詞
停用詞就是類似the,a,of這種語義無價值的詞,取出后我們還可以把統計圖畫出來
4.繪制詞雲圖
對於詞雲圖的使用原理還不太清楚,只是找了一個可運行的公式
NLTK是python環境中的一個非常流行的NLP庫,這篇記錄主要記錄NLTK的一些常見操作
1.去除網頁html標記
我們常常通過爬蟲獲取網頁信息,然后需要去除網頁的html標簽。為此我們可以這么做:
2.統計詞頻
這里使用的tokens就是上面圖中的tokens
3.去除停用詞
停用詞就是類似the,a,of這種語義無價值的詞,取出后我們還可以把統計圖畫出來
4.繪制詞雲圖
對於詞雲圖的使用原理還不太清楚,只是找了一個可運行的公式
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。