關鍵字提取算法TF-IDF

本文轉載自查看原文 2016-11-05 16:14 8694 信息論/ SEO/ 文本分類

在文本分類的學習過程中，在“如何衡量一個關鍵字在文章中的重要性”的問題上，遇到了困難。在網上找了很多資料，大多數都提到了這個算法，就是今天要講的TF-IDF。

總起

　　TF-IDF，理解起來相當簡單，他實際上就是TF*IDF，兩個計算值的乘積，用來衡量一個詞庫中的詞對每一篇文檔的重要程度。下面我們分開來講這兩個值，TF和IDF。

　　TF，是Term Frequency的縮寫，就是某個關鍵字出現的頻率，具體來講，就是詞庫中的某個詞在當前文章中出現的頻率。那么我們可以寫出它的計算公式：

　　其中：

　　　　TF(i,j)：關鍵詞j在文檔i中的出現頻率。

　　　　n(i,j)：關鍵詞j在文檔i中出現的次數。

　　比如，一篇文章一共100個詞匯，其中“機器學習”一共出現10次，那么他的TF就是10/100=0.1。

　　這么看來好像僅僅是一個TF就能用來評估一個關鍵詞的重要性（出現頻率越高就越重要），其實不然，單純使用TF來評估關鍵詞的重要性忽略了常用詞的干擾。常用詞就是指那些文章中大量用到的，但是不能反映文章性質的那種詞，比如：因為、所以、因此等等的連詞，在英文文章里就體現為and、the、of等等的詞。這些詞往往擁有較高的TF，所以僅僅使用TF來考察一個詞的關鍵性，是不夠的。這里我們要引出IDF，來幫助我們解決這個問題。

IDF

　　IDF，英文全稱：Inverse Document Frequency，即“反文檔頻率”。先看什么是文檔頻率，文檔頻率DF就是一個詞在整個文庫詞典中出現的頻率，就拿上一個例子來講：一個文件集中有100篇文章，共有10篇文章包含“機器學習”這個詞，那么它的文檔頻率就是10/100=0.1，反文檔頻率IDF就是這個值的倒數，即10。因此得出它的計算公式:

其中：

　　IDF(i)：詞語i的反文檔頻率

　　|D|：語料庫中的文件總數

　　|j:t(i)屬於d(j)|出現詞語i的文檔總數

　　+1是為了防止分母變0。

　　於是這個TF*IDF就能用來評估一個詞語的重要性。

　　還是用上面這個例子，我們來看看IDF是怎么消去常用詞的干擾的。假設100篇文檔有10000個詞，研究某篇500詞文章，“機器學習”出現了20次，“而且”出現了20次，那么他們的TF都是20/500=0.04。再來看IDF，對於語料庫的100篇文章，每篇都出現了“而且”，因此它的IDF就是log1=0,他的TF*IDF=0。而“機器學習”出現了10篇，那么它的IDF就是log10=1,他的TF*IDF=0.04>0，顯然“機器學習”比“而且”更加重要。

總結

　　這算法看似簡單，實際上在SEO搜索引擎優化啊，文本分類方面用的挺多的，面試時也常常作為信息論知識儲備來出題。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關鍵字提取算法TF-IDF和TextRank（python3）————實現TF-IDF並jieba中的TF-IDF對比，使用jieba中的實現TextRank TF-IDF與TextRank的關鍵詞提取算法應用關鍵詞提取算法TF-IDF與TextRank TF-IDF算法之關鍵詞提取 TF-IDF 提取關鍵詞 TF-IDF及其算法通過sklearn使用tf-idf提取英文關鍵詞 TF-IDF提取行業關鍵詞 TF-IDF算法介紹基於TF-IDF的新聞標簽提取