文章關鍵詞在線提取


中文分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。現有的分詞算法可分為三大類:基於字符串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。准確度較高的是統計分詞算法,常用的有最大概率法和隱式馬爾科夫模型。分詞結束后,使用TF-IDF文本關鍵詞特征提取算法,TF-IDF是一種統計方法,用以評估一字詞對於一個語料庫中的其中一份文件的重要程度。字詞的重要性隨着它在文件中出現的次數成正比增加,但同時會隨着它在語料庫中出現的頻率成反比下降,按詞語重要性從中提取特定數量的詞語組成這篇文章的關鍵詞集合。

反饋與建議


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM