逐點互信息(PIM):用來衡量兩個事物的相關性
定義如下:
在概率論中,我們知道,如果x跟y不相關,則 P(x,y) = P(x)P(y)。二者相關性越大,則 P(x,y) 就相比於 P(x)P(y) 越大。根據條件概率公式,你還可以寫成
這也很好理解,在y出現的情況下x出現的條件概率 p(x|y) 除以x本身出現的概率 p(x) ,自然就表示x跟y的相關程度。
這里的log來自於信息論的理論,而且 log 1 = 0 ,也恰恰表明P(x,y) = P(x)P(y),相關性為0,而且log是單調遞增函數,所以 “P(x,y) 就相比於 P(x)P(y) 越大,x 和 y 相關性越大” 這一性質也得到保留
原文鏈接:https://blog.csdn.net/baimafujinji/article/details/6509820