一、點互信息算法
點互信息算法是為了計算兩個詞語之間的相關性,公式如下:

p(word1 & word2)代表的是兩個單詞同時出現的概率(兩個單詞同時出現的次數/總詞數的平方)
p(word1)是word1出現的概率(word1出現的次數/總次數)
p(word2)是word2出現的概率(word1出現的次數/總次數)
結果:
PMI > 0;兩個詞語是相關的;值越大,相關性越強。
PMI = 0;兩個詞語是統計獨立的,不相關也不互斥。
PMI < 0;兩個詞語是不相關的,互斥的。
二、情感傾向點互信息算法(SO-PMI)
選用一組褒義詞(Pwords)跟一組貶義詞(Nwords)作為基准詞。若把一個詞語word1跟Pwords的點間互信息減去word1跟Nwords的點間互信息會得到一個差值,就可以根據該差值判斷詞語word1的情感傾向。

SO(phrase)>0 正面傾向,是褒義詞
SO(phrase)=0 為中性詞
SO(phrase)<0 為貶義詞
