點互信息算法(PMI)
基本思想:是統計兩個詞語在文本中同時出現的概率,如果概率越大,其相關性就越緊密,關聯度越高。

PMI > 0;兩個詞語是相關的;值越大,相關性越強。
PMI = 0;兩個詞語是統計獨立的,不相關也不互斥。
PMI < 0;兩個詞語是不相關的,互斥的。
從概率思想理解:
如果兩個事件不相關也不互斥,則同時發生的概率p(a,b)=p(a)*p(b),此時p(a,b)/p(a)*p(b)=1,PMI(a,b)=0;
如果兩個事件相關,則同時發生的概率p(a,b)>p(a)*p(b),此時p(a,b)/p(a)*p(b)>1,PMI(a,b)>0;
如果兩個事件互斥,則同時發生的概率p(a,b)
情感傾向點互信息算法(SO-PMI)
基本思想是:選用一組褒義詞(Pwords)跟一組貶義詞(Nwords)作為基准詞。若把一個詞語word1跟Pwords的點間互信息減去word1跟Nwords的點間互信息會得到一個差值,就可以根據該差值判斷詞語word1的情感傾向。

SO-PMI(word1)> 0;為正面傾向,即褒義詞
SO-PMI(word1) = 0;為中性傾向,即中性詞
SO-PMI(word1) < 0;為負面傾向,即貶義詞