情感傾向PMI算法


點互信息算法(PMI)

基本思想:是統計兩個詞語在文本中同時出現的概率,如果概率越大,其相關性就越緊密,關聯度越高。

 
 

PMI > 0;兩個詞語是相關的;值越大,相關性越強。

PMI = 0;兩個詞語是統計獨立的,不相關也不互斥。

PMI < 0;兩個詞語是不相關的,互斥的。

從概率思想理解:

如果兩個事件不相關也不互斥,則同時發生的概率p(a,b)=p(a)*p(b),此時p(a,b)/p(a)*p(b)=1,PMI(a,b)=0;

如果兩個事件相關,則同時發生的概率p(a,b)>p(a)*p(b),此時p(a,b)/p(a)*p(b)>1,PMI(a,b)>0;

如果兩個事件互斥,則同時發生的概率p(a,b)

情感傾向點互信息算法(SO-PMI)

基本思想是:選用一組褒義詞(Pwords)跟一組貶義詞(Nwords)作為基准詞。若把一個詞語word1跟Pwords的點間互信息減去word1跟Nwords的點間互信息會得到一個差值,就可以根據該差值判斷詞語word1的情感傾向。

 

 
 

SO-PMI(word1)> 0;為正面傾向,即褒義詞

SO-PMI(word1) = 0;為中性傾向,即中性詞

SO-PMI(word1) < 0;為負面傾向,即貶義詞




免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM