關於TF(詞頻) 和TF-IDF(詞頻-逆向文件頻率 )的理解


 ##TF-IDF

TF(詞頻):  假定存在一份有N個詞的文件A,其中‘明星‘這個詞出現的次數為T。那么 TF = T/N;

所以表示為: 某一個詞在某一個文件中出現的頻率.

 

TF-IDF(詞頻-逆向文件頻率):  表示的詞頻和逆向文件頻率的乘積.

比如:  假定存在一份有N個詞的文件A,其中‘明星‘這個詞出現的次數為T。那么 TF = T/N;  並且‘明星’這個詞,在W份文件中出現,而總共有X份文件,那么

IDF = log(X/W) ;

而: TF-IDF =  TF *  IDF = T/N * log(X/W);   我們發現,‘明星’,這個出現在W份文件,W越小 TF-IDF越大,也就是這個詞越有可能是該文檔的關鍵字,而不是習慣詞(類似於:‘的’,‘是’,‘不是’這些詞),

而TF越大,說明這個詞在文檔中的信息量越大.

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM