本文從闡述Python實現客觀賦權法的四種方式:
一. 熵權法
二. 因子分析權數法(FAM)
三. 主成分分析權數法(PCA)
四. 獨立性權系數法
Python實現客觀賦權法,在進行賦權前,先導入數據(列:各維屬性;行:各樣本),並自行進行去空值、歸一化等操作。
import pandas as pd import numpy as np data=pd.DataFrame(pd.read_excel('路徑'))
一. 熵權法
若某個指標的信息熵越大(即離散程度越大),表明指標提供的信息量越多,在綜合評價中所能起到的作用也越大,權重也就越大。
m,n=data.shape data=data.as_matrix(columns=None) pij=data/data.sum(axis=0) test=pij*np.log(pij) test=np.nan_to_num(test) ej=-1/np.log(m)*(test.sum(axis=0)) wi=(1-ej)/np.sum(1-ej) print(wi)
二. 因子分析權數法(FAM)
因子分析的目的:用少數幾個因子去描述許多指標和因素間的聯系,因子不具備直接物理含義。
因子分析權數法:對每個指標,計算共性因子的累計貢獻率來定權。
from math import * import numpy.linalg as nlg data_mean=data.mean()#樣本均值 E = np.mat(np.zeros((12, 12)))#樣本離差陣,12是因為我輸入的是12維屬性 for i in range(len(data)): E += (data.iloc[i, :].values.reshape(12, 1) - data_mean.values.reshape(12, 1)) * (data.iloc[i, :].values.reshape(1, 12) - data_mean.values.reshape(1, 12)) R = np.mat(np.zeros((12, 12)))#樣本相關陣R for i in range(12): for j in range(12): R[i, j] = E[i, j]/sqrt(E[i, i] * E[j, j]) eig_value, eigvector = nlg.eig(R)#求矩陣R的全部特征值,構成向量E。 eig = pd.DataFrame() eig['names'] = data.columns eig['eig_value'] = eig_value eig.sort_values('eig_value', ascending=False, inplace=True) createVar = locals() result=0 #求因子模型的因子載荷陣,尋找公共因子個數m for m in range(1, 12): createVar['factor_'+str(m)]=eig['eig_value'][:m].sum()/eig['eig_value'].sum()-result#這步計算每個因子的貢獻率 result=eig['eig_value'][:m].sum()/eig['eig_value'].sum() if eig['eig_value'][:m].sum()/eig['eig_value'].sum() >= 0.8:#認為貢獻率之和>80%的前m個重要因子,可以描述指標 print(m)#這里我得到的是7,所以之后算因子載荷矩陣有七列 break eig_value=eig_value.reshape(12, 1) #因子載荷矩陣 A = np.mat(np.zeros((12, 7))) A[:,0]=factor_1*abs((sqrt(eig_value[0])*eigvector[:,0]).reshape(12, 1)) A[:,1]=factor_2*abs((sqrt(eig_value[1])*eigvector[:,1]).reshape(12, 1)) A[:,2]=factor_3*abs((sqrt(eig_value[2])*eigvector[:,2]).reshape(12, 1)) A[:,3]=factor_4*abs((sqrt(eig_value[3])*eigvector[:,3]).reshape(12, 1)) A[:,4]=factor_5*abs((sqrt(eig_value[4])*eigvector[:,4]).reshape(12, 1)) A[:,5]=factor_6*abs((sqrt(eig_value[5])*eigvector[:,5]).reshape(12, 1)) A[:,6]=factor_7*abs((sqrt(eig_value[6])*eigvector[:,6]).reshape(12, 1)) a=pd.DataFrame(A) b=a.sum(axis=1) c=b/b.sum(axis=0) print(c)
三. 主成分分析權數法(PCA)
與因子分析法的主要區別在於:主成分由原有特征線性加權得到,而因子分析法中,因子線性加權得到原有特征。
指標權重為主成分的方差貢獻率。
from sklearn.decomposition import PCA X=np.array(data) pca=PCA(n_components=5) pca.fit(X) component=pca.components_ variance_ratio=pca.explained_variance_ratio_ component=abs(component.T) for i in range(0,5): component[:,i]=variance_ratio[i]*component[:,i] a=pd.DataFrame(component) b=a.sum(axis=1) c=b/b.sum(axis=0) print(c)
四. 獨立性權系數法
若指標與其他指標的復相關系數越大,則與其他指標的共線性關系越強,重復信息越多,所以指標權重越小。也即獨立性越強,指標權重越大。
復相關系數是其中一項和其他項的加權和的相關系數,所以這里需要用到多元線性回歸,我是用excel做的回歸(網上很容易查到步驟),得到了復相關系數R1—R12,之后:
createVar = locals() sum_result=0 for i in range(1,13): createVar['R'+str(i)]=1/createVar['R'+str(i)] sum_result=sum_result+createVar['R'+str(i)] for i in range(1,13): createVar['R'+str(i)]=createVar['R'+str(i)]/sum_result print(createVar['R'+str(i)])
參考文章:
https://blog.csdn.net/weixin_37805505/article/details/80847800