PMI點互信息算法


一、點互信息算法

    點互信息算法是為了計算兩個詞語之間的相關性,公式如下:

 

 

 p(word1  & word2)代表的是兩個單詞同時出現的概率(兩個單詞同時出現的次數/總詞數的平方)

 p(word1)是word1出現的概率(word1出現的次數/總次數)

 p(word2)是word2出現的概率(word1出現的次數/總次數)

結果:

PMI > 0;兩個詞語是相關的;值越大,相關性越強。

PMI = 0;兩個詞語是統計獨立的,不相關也不互斥。

PMI < 0;兩個詞語是不相關的,互斥的。

二、情感傾向點互信息算法(SO-PMI)

       選用一組褒義詞(Pwords)跟一組貶義詞(Nwords)作為基准詞。若把一個詞語word1跟Pwords的點間互信息減去word1跟Nwords的點間互信息會得到一個差值,就可以根據該差值判斷詞語word1的情感傾向。

 

 

 

 

SO(phrase)>0 正面傾向,是褒義詞

SO(phrase)=0 為中性詞

SO(phrase)<0 為貶義詞


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM