根據各個指標獲得綜合指標時,由於各個指標對綜合指標的貢獻度不同,相應權重也應不同,對綜合指標貢獻大的指標更重要,應該分配更大的權重。如何確定各個指標的權重,這里介紹兩種方法:熵值法和pca確定權重。也可用於特征工程中確定特征權重。
一、熵值法
1、熵的概念
信息論中,熵是對隨機變量不確定性的度量。熵值越小,無序程度越小,不確定性越小,信息量越大;熵值越大,無序程度越大,不確定性越大,信息量越小。可用熵值計算特征的離散程度,離散程度大的特征對綜合值影響更大。
熵值大,信息量小,權重應該小;熵值小,信息量大,權重應該大。
熵的計算公式
2、熵值法確定權重
指標1 | 指標2 | …… | 指標m |
... | ... | ... | ... |
確定指標1到指標m的權重
指標值不同取值的出現次數相差大,熵小,信息量大,權重應大;指標值不同取值的出現次數相差小,熵大,信息量小,權重應小。
當m個指標值完全相同時,熵最大,可移除該指標。
熵值法確定權重的步驟:
1、歸一化
對指標值進行歸一化,歸一化時,應考慮指標值的影響
當指標值越大越好時,可使用公式
x=(x-xmin)/(xmax-xmin)
當指標值越小越好時,可使用公式
x=(xmax-x)/(xmax-xmin)
2、定義熵
m個指標,n個被評價對象
第i個指標
3、定義熵權
二、pca確定權重
pca是一種無監督的降維方法,pca通過線性變換將原來可能相關的n個向量變換成線性無關的k維向量。用pca確定權重系數需要知道三個條件:
- 指標在各主成分線性組合中的系數
- 主成分的方差貢獻率
- 指標權重的歸一化
ex:n個主成分,m個指標
w表示各主成分的系數,wij表示第一個主成分第j個指標的系數,fi表示第一個主成分的方差貢獻率
則第q個指標的權重為
歸一化