- 點擊體驗:@(關鍵詞提取)[shiny|雲應用]
中文分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。現有的分詞算法可分為三大類:基於字符串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。准確度較高的是統計分詞算法,常用的有最大概率法和隱式馬爾科夫模型。分詞結束后,使用TF-IDF文本關鍵詞特征提取算法,TF-IDF是一種統計方法,用以評估一字詞對於一個語料庫中的其中一份文件的重要程度。字詞的重要性隨着它在文件中出現的次數成正比增加,但同時會隨着它在語料庫中出現的頻率成反比下降,按詞語重要性從中提取特定數量的詞語組成這篇文章的關鍵詞集合。
反饋與建議
- 作者:ShangFR
- 郵箱:shangfr@foxmail.com