關鍵詞提取
關鍵詞的定義:仁者見仁,智者見智的問題。
一:詞頻統計
通過統計文章中反復出現的詞語。
詞頻統計的流程:分詞、停用詞過濾、按詞頻取前n個。(m個元素取前n個元素通常利用最大堆解決。其復雜度為O(mlogn))
缺點:高頻詞並不等價於關鍵詞。
二:使用TF-IDF(詞頻-倒排文檔頻次)
在TF-IDF算法中,詞的重要程度不光正比於他在文檔中的頻次,還反比於有多少文檔包含他。
t代表單詞,d代表文檔,TF(t,d)代表t在d中的出現頻次,DF(t)代表多少篇文檔包含t。
三:實戰測試
數據來源:10000條用戶關於套餐內容的投訴信息。包括時間、地址、賬號、訂單號、英文類型等無關內容。
需求:提取前關鍵詞,生成詞雲圖。
實戰結果:
IO次數過高。程序運行直接暫停了
解決方案為:
https://www.jianshu.com/p/352d1cdff534
使用了sklearn的TfidfVectorizer算法包,但是想根據tfidf值作為詞頻生成詞雲圖,但生成的是空白頁面。
最終結果: