在文本分類的學習過程中,在“如何衡量一個關鍵字在文章中的重要性”的問題上,遇到了困難。在網上找了很多資料,大多數都提到了這個算法,就是今天要講的TF-IDF。
總起
TF-IDF,理解起來相當簡單,他實際上就是TF*IDF,兩個計算值的乘積,用來衡量一個詞庫中的詞對每一篇文檔的重要程度。下面我們分開來講這兩個值,TF和IDF。
TF
TF,是Term Frequency的縮寫,就是某個關鍵字出現的頻率,具體來講,就是詞庫中的某個詞在當前文章中出現的頻率。那么我們可以寫出它的計算公式:

其中:
TF(i,j):關鍵詞j在文檔i中的出現頻率。
n(i,j):關鍵詞j在文檔i中出現的次數。
比如,一篇文章一共100個詞匯,其中“機器學習”一共出現10次,那么他的TF就是10/100=0.1。
這么看來好像僅僅是一個TF就能用來評估一個關鍵詞的重要性(出現頻率越高就越重要),其實不然,單純使用TF來評估關鍵詞的重要性忽略了常用詞的干擾。常用詞就是指那些文章中大量用到的,但是不能反映文章性質的那種詞,比如:因為、所以、因此等等的連詞,在英文文章里就體現為and、the、of等等的詞。這些詞往往擁有較高的TF,所以僅僅使用TF來考察一個詞的關鍵性,是不夠的。這里我們要引出IDF,來幫助我們解決這個問題。
IDF
IDF,英文全稱:Inverse Document Frequency,即“反文檔頻率”。先看什么是文檔頻率,文檔頻率DF就是一個詞在整個文庫詞典中出現的頻率,就拿上一個例子來講:一個文件集中有100篇文章,共有10篇文章包含“機器學習”這個詞,那么它的文檔頻率就是10/100=0.1,反文檔頻率IDF就是這個值的倒數,即10。因此得出它的計算公式:

其中:
IDF(i):詞語i的反文檔頻率
|D|:語料庫中的文件總數
|j:t(i)屬於d(j)|出現詞語i的文檔總數
+1是為了防止分母變0。
於是這個TF*IDF就能用來評估一個詞語的重要性。
還是用上面這個例子,我們來看看IDF是怎么消去常用詞的干擾的。假設100篇文檔有10000個詞,研究某篇500詞文章,“機器學習”出現了20次,“而且”出現了20次,那么他們的TF都是20/500=0.04。再來看IDF,對於語料庫的100篇文章,每篇都出現了“而且”,因此它的IDF就是log1=0,他的TF*IDF=0。而“機器學習”出現了10篇,那么它的IDF就是log10=1,他的TF*IDF=0.04>0,顯然“機器學習”比“而且”更加重要。
總結
這算法看似簡單,實際上在SEO搜索引擎優化啊,文本分類方面用的挺多的,面試時也常常作為信息論知識儲備來出題。
