使用tf-idf提取關鍵詞並生成詞雲。


關鍵詞提取

關鍵詞的定義:仁者見仁,智者見智的問題。

一:詞頻統計

通過統計文章中反復出現的詞語。

詞頻統計的流程:分詞、停用詞過濾、按詞頻取前n個。(m個元素取前n個元素通常利用最大堆解決。其復雜度為O(mlogn))

缺點:高頻詞並不等價於關鍵詞。

二:使用TF-IDF(詞頻-倒排文檔頻次)

在TF-IDF算法中,詞的重要程度不光正比於他在文檔中的頻次,還反比於有多少文檔包含他。

t代表單詞,d代表文檔,TF(t,d)代表t在d中的出現頻次,DF(t)代表多少篇文檔包含t。

三:實戰測試

數據來源:10000條用戶關於套餐內容的投訴信息。包括時間、地址、賬號、訂單號、英文類型等無關內容。

需求:提取前關鍵詞,生成詞雲圖。

實戰結果:

IO次數過高。程序運行直接暫停了

 

解決方案為:

https://www.jianshu.com/p/352d1cdff534

 使用了sklearn的TfidfVectorizer算法包,但是想根據tfidf值作為詞頻生成詞雲圖,但生成的是空白頁面。

最終結果:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM