TF-IDF(term frequency–inverse document frequency)是一種統計方法,用於評估一個詞對N篇文章或一個語料庫中其中一篇文章的重要性。
一個詞在一篇文章中出現的次數並不能表明該詞的重要性,例如“我們”,“的”這種常見詞,我們需要TF-IDF統計方法。
詞的重要度隨着它在一篇文章中出現的次數成正比增加,但同時會隨着它在N篇文章(文章集合)中出現的頻率成反比下降。
在一篇給定的文章中,詞頻(term frequency, TF)指的是該文章中某個詞出現的次數除以該文章的總詞數。
逆向文檔頻率(inverse document frequency, IDF)是一個詞普遍重要性的度量,某一特定詞的IDF值,用總文件數除以包含該詞的文章數量,再將得到的商取對數(log)。計算公式:IDF = log(D/Dt),D為文章總數,Dt為該詞出現的文章數量。
TF-IDF值 = TF值 * IDF值
假如測試語料庫中共有1000篇文章,其中一篇文章共分得100個詞,其中“互聯網”一詞出現了5次,那么“互聯網”一詞在該文章中的TF值(詞頻)就是 5/100 = 0.05。
如果“互聯網”一詞共出現在200篇文章中,那么該詞的IDF值 log(1000/200) = 2.12,該詞的TF-IDF值 0.05 * 2.12 = 0.106
再舉一個常用詞例子,假如“我們”在該篇文章中出現了30次,該文章共分得100個詞,那么該詞的詞頻為 30/100 = 0.3。如果“我們”一共出現在了900篇文章中,那么該詞的IDF值 log(1000/900) = 0.1,該詞的TF-IDF值 0.3 * 0.1 = 0.03。
由於“互聯網”一詞的TF-IDF值比“我們”要大,所以我們認為““互聯網”一詞的重要度要高於“我們”。