用TF-IDF值來判斷詞的重要性

本文轉載自查看原文 2011-12-28 14:01 3233

TF-IDF（term frequency–inverse document frequency）是一種統計方法，用於評估一個詞對N篇文章或一個語料庫中其中一篇文章的重要性。

一個詞在一篇文章中出現的次數並不能表明該詞的重要性，例如“我們”，“的”這種常見詞，我們需要TF-IDF統計方法。

詞的重要度隨着它在一篇文章中出現的次數成正比增加，但同時會隨着它在N篇文章（文章集合）中出現的頻率成反比下降。

在一篇給定的文章中，詞頻(term frequency, TF)指的是該文章中某個詞出現的次數除以該文章的總詞數。

逆向文檔頻率（inverse document frequency, IDF）是一個詞普遍重要性的度量，某一特定詞的IDF值，用總文件數除以包含該詞的文章數量，再將得到的商取對數(log)。計算公式：IDF = log(D/Dt)，D為文章總數，Dt為該詞出現的文章數量。

TF-IDF值 = TF值 * IDF值

假如測試語料庫中共有1000篇文章，其中一篇文章共分得100個詞，其中“互聯網”一詞出現了5次，那么“互聯網”一詞在該文章中的TF值（詞頻）就是 5/100 = 0.05。

如果“互聯網”一詞共出現在200篇文章中，那么該詞的IDF值 log(1000/200) = 2.12，該詞的TF-IDF值 0.05 * 2.12 = 0.106

再舉一個常用詞例子，假如“我們”在該篇文章中出現了30次，該文章共分得100個詞，那么該詞的詞頻為 30/100 = 0.3。如果“我們”一共出現在了900篇文章中，那么該詞的IDF值 log(1000/900) = 0.1，該詞的TF-IDF值 0.3 * 0.1 = 0.03。

由於“互聯網”一詞的TF-IDF值比“我們”要大，所以我們認為““互聯網”一詞的重要度要高於“我們”。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 TF-IDF 提取關鍵詞詞袋模型和TF-IDF TF-IDF與TextRank的關鍵詞提取算法應用 TF-IDF介紹 TF-IDF及其算法關鍵詞提取算法TF-IDF與TextRank 通過sklearn使用tf-idf提取英文關鍵詞 TF-IDF提取行業關鍵詞 TF-IDF算法之關鍵詞提取 TF-IDF模型