[學習記錄]NLTK常見操作一(去網頁標記,統計詞頻,去停用詞)


NLTK是python環境中的一個非常流行的NLP庫,這篇記錄主要記錄NLTK的一些常見操作

1.去除網頁html標記

  我們常常通過爬蟲獲取網頁信息,然后需要去除網頁的html標簽。為此我們可以這么做:

2.統計詞頻

  這里使用的tokens就是上面圖中的tokens

3.去除停用詞

  停用詞就是類似the,a,of這種語義無價值的詞,取出后我們還可以把統計圖畫出來

4.繪制詞雲圖

  對於詞雲圖的使用原理還不太清楚,只是找了一個可運行的公式

 

 

 

 

 

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM