TF-IDF算法介紹


1、TF-IDF算法介紹及名詞解釋

  TF-IDF(Term Frequency–Inverse Document Frequency,詞頻-逆向文件頻率)是一種用於信息檢索、文本處理、數據挖掘等領域的常用加權技術。TF-IDF是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨着它在文件中出現的次數成正比增加,但同時會隨着它在語料庫中出現的頻率成反比下降。總結來說就是,一個詞語在一篇文章中出現次數越多,同時在所有文檔中出現次數越少,越能夠代表該文章。  

  TF-IDF的主要思想是:如果某個詞或短語在一篇文章中出現的頻率TF高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。TF-IDF實際上就是 TF*IDF,其中 TF(Term Frequency),表示詞條在文章Document 中出現的頻率;IDF(Inverse Document Frequency),其主要思想就是,如果包含某個詞 Word的文檔越少,則這個詞的區分度就越大,也就是 IDF 越大。對於如何獲取一篇文章的關鍵詞,我們可以計算這邊文章出現的所有名詞的 TF-IDF,TF-IDF越大,則說明這個名詞對這篇文章的區分度就越高,取 TF-IDF 值較大的幾個詞,就可以當做這篇文章的關鍵詞。

(1)TF是詞頻(Term Frequency)
        詞頻(TF)表示詞條(關鍵字)在文本中出現的頻率。 這個數字通常會被歸一化(一般是詞頻除以文章總詞數),以防止它偏向長的文件。即:

 

  TF的計算公式為:

$tf_{ij}=\frac{n_{ij}}{\sum_{k}^{} n_{k,j}}$

其中 ni,j 是該詞在文件dj中出現的次數,分母則是文件dj中所有詞匯出現的次數總和;

(2) IDF是逆向文件頻率(Inverse Document Frequency)
        逆向文件頻率 (IDF) :某一特定詞語的IDF,可以由總文件數目除以包含該詞語的文件的數目,再將得到的商取對數得到。如果包含詞條t的文檔越少,IDF越大,則說明詞條具有很好的類別區分能力。

  IDF的計算公式為:

$idf_{i}=log\frac{\left | D \right |}{\left |\left \{ j:t_{i}\epsilon d_{j} \right \}  \right |+1}$

   其中,|D| 是語料庫中的文件總數。 |{j:ti∈dj}| 表示包含詞語 ti 的文件數目(即 ni,j≠0 的文件數目)。如果該詞語不在語料庫中,就會導致分母為零,因此一般情況下使用 1+|{j:ti∈dj}|。 

(3)TF-IDF實際上是:TF * IDF
       某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向於過濾掉常見的詞語,保留重要的詞語。

       公式為:TF-IDF=TF*IDF     

       注:  TF-IDF算法非常容易理解,並且很容易實現,但是其簡單結構並沒有考慮詞語的語義信息,無法處理一詞多義與一義多詞的情況。

2、TF-IDF的使用場景

  在做特征工程時,常遇到這樣的問題:從一個短語或短句中提取關鍵字構造新特征,然后將新特征代入分類或者回歸模型,是否需要使用TF-IDF方法?首先,TF是詞頻,即它需要在一個文本中出現多次才有意義,如果在短句中,每個詞最多只出現一次,那么計算TF不如直接判斷其是否存在。

  另外,TF-IDF的結果展示的是某一詞針對於它所在文檔的重要性,而不是對比兩文檔的差異。如果兩個短語屬於不同類別,新特征對於提取分類特征可能沒有意義,但是對於生成文摘就是有意義的關鍵字。對於此類問題,建議使用:先切分出關鍵詞,將是否包含該關鍵詞作為新特征,然后對新特征和目標變量做假設檢驗,以判斷是否保留該變量的方法提取新特征。

3、優缺點

   1. 優點是算法的容易理解,便於實現。

   2.缺點:IDF的簡單結構並不能有效地反映單詞的重要程度和特征詞的分布情況,使其無法很好的完成對權值的調整功能,所以在一定程度上該算法的精度並不是很高。除此之外,算法也沒喲體現位置信息,對於出現在文章不同位置的詞語都是一視同仁的,而我們知道,在文章首尾的詞語勢必重要性要相對高點。據此,我們可以或許也可以將處於文章不同位置的詞語賦予不同的權重。

 

參考:

https://www.cnblogs.com/tan2810/p/11202874.html

https://blog.csdn.net/zwqjoy/article/details/91388809


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM