一、简单介绍
按照信息论基本原理的解释,信息是系统有序程度的一个度量,熵是系统无序程度的一个度量;如果指标的信息熵越小,该指标提供的信息量越大,在综合评价中所起作用理当越大,权重就应该越高。
二、计算方法
(一)归一化
假设原式数据$X$为一个n*p维矩阵(n个样本,p个变量)
$$\begin{pmatrix} x_{11}&x_{12}&\cdots&x_{1p}\
\vdots\
x_{n1}&x_{n2}&{\cdots}&x_{np} \end{pmatrix} $$
则对每一个变量的取值,也就是每一列进行归一化处理得Y。
对于归一化处理后的每一列$y_{\cdot j}$
$$y_{ij} = \frac{x_{ij}-min{x_{\cdot j}}}{max{x_{\cdot j}}-min{x_{\cdot j}}}$$
(二)求各变量的信息熵
对于变量j,其信息熵$$H_j = E(-ln\ p_{ij})=-\sum_{i=1}^{n}p_{i j}\cdot ln\ p_{ij}$$
其中
$$p_{ij} = \frac{y_{ij}}{\sum_{i=1}^{n}y_{ij}}$$
如果$p_{ij} = 0$,则定义$$\lim_{p_{ij} \to 0}p_{i j}\cdot ln\ p_{ij} = 0$$
(三)根据信息熵求各变量权重
上面可以计算出p个变量的信息熵:$H_1,H_2,\cdots,H_p$
则第j个变量的权重:
$$w_j = \frac{1-H_j}{p - \sum_{j=1}^{p}H_j},j\in{1,2,\cdots,p}$$