用TF-IDF值來判斷詞的重要性


TF-IDF(term frequency–inverse document frequency)是一種統計方法,用於評估一個詞對N篇文章或一個語料庫中其中一篇文章的重要性。

一個詞在一篇文章中出現的次數並不能表明該詞的重要性,例如“我們”,“的”這種常見詞,我們需要TF-IDF統計方法。

詞的重要度隨着它在一篇文章中出現的次數成正比增加,但同時會隨着它在N篇文章(文章集合)中出現的頻率成反比下降。

在一篇給定的文章中,詞頻(term frequency, TF)指的是該文章中某個詞出現的次數除以該文章的總詞數。

逆向文檔頻率(inverse document frequency, IDF)是一個詞普遍重要性的度量,某一特定詞的IDF值,用總文件數除以包含該詞的文章數量,再將得到的商取對數(log)。計算公式:IDF = log(D/Dt),D為文章總數,Dt為該詞出現的文章數量。

TF-IDF值 = TF值 *  IDF值

假如測試語料庫中共有1000篇文章,其中一篇文章共分得100個詞,其中“互聯網”一詞出現了5次,那么“互聯網”一詞在該文章中的TF值(詞頻)就是 5/100 = 0.05。

如果“互聯網”一詞共出現在200篇文章中,那么該詞的IDF值 log(1000/200)  = 2.12,該詞的TF-IDF值  0.05 * 2.12 = 0.106

再舉一個常用詞例子,假如“我們”在該篇文章中出現了30次,該文章共分得100個詞,那么該詞的詞頻為 30/100 = 0.3。如果“我們”一共出現在了900篇文章中,那么該詞的IDF值 log(1000/900)  = 0.1,該詞的TF-IDF值 0.3 * 0.1 = 0.03。

由於“互聯網”一詞的TF-IDF值比“我們”要大,所以我們認為““互聯網”一詞的重要度要高於“我們”。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM