一、BP_ Adaboost模型
Adaboost 算法的思想是合並多個“弱”分類器的輸出以產生有效分類。其主要步驟為 :
(1)首先給出弱學習算法和樣本空間(x, y) ,從樣本空間中找出 m 組訓練數據,每組訓練數據的權重都是 1 /m。
(2)用弱學習算法迭代運算 T 次,每次運算后都按照分類結果更新訓練數據權重分布,對於分類失敗的訓練個體賦予較大權重,下一次迭代運算時更加關注這些訓練個體。弱分類器通過反復迭代得到一個分類函數序列 f1, ,f2 , … , fT ,每個分類函數賦予一個權重,分類結果越好的函數,其對應權重越大。
(3)T 次迭代之后,最終強分類函數 F 由弱分類函數加權得 。
BP_Adaboost 模型即把 BP 神經網絡作為弱分類器,反復訓練 BP 神經網絡預測樣本輸出,通過 Adaboost 算法得到多個 BP 神經網絡弱分類器組成的強分類器。
二、BP_ Adaboost模型分類算法流程
基於 BP_Adaboost 模型的 分類算法流程圖如下:
算法步驟如下:
step1:數據選擇和網絡初始化。從樣本空間中隨機選擇 m 組訓練數據,初始化測試數據的分布權值 D,(i) = l/m,根據樣本輸入輸出維數確定神經網絡結構,初始化 BP 神經網絡權值和閾值 。
step2::弱分類器預測。訓練第 t 個弱分類器時,用訓練數據訓練 BP 神經網絡並且預測訓練數據輸出,得到預測序列 g(t)的預測誤差和 et,誤差和 et的計算公式為
式中, g(t )為預測分類結果,y為期望分類結果 。
step3: 計算預測序列權重 。 根據預測序列 g(t) 的預測誤差 et, 計算序列的權重 αt , 權重計算公式為
step4: 測試數據權重調整 。 根據預測序列權重 αt,調整下一輪訓練樣本的權重,調整公式為
式中, βt是歸一化因子,目的是在權重比例不變的情況下使分布權值和為 1 。
step5: :強分類函數 。 訓練 T 輪后得到j T 組弱分類函數 f (gt ,at) ,由 T 組弱分類函數 f (gt ,at)組合得到了強分類函數 h(x)
三、BP_ Adaboost模型分類實例
現有某公司財務狀況數據共1350組,每組數據共有11維,前10維分別代表公司的分費用利潤率、資產營運能力、公司總資產、總資產增長率、流動比亘在、營業現金流量、審計意見類型、每股收益、存貨周轉率和資產負債率十項指標 ,最后1維代表公司的財務狀況,其中1代表該公司財務狀況良好,-1則代表該公司財務出現問題。
根據要求,選取其中1000組數據作為訓練集,剩余的350組作為測試集,采用的BP神經網絡結構為10-6-1,共訓練生成10個BP神經網絡弱分類器,最后用10個弱分類器組成的強分類器對公司財務進行分類。
利用matlab實現該分類問題,代碼如下:
%% 清空環境變量 clc clear %% 下載數據 load data input_train output_train input_test output_test %% 權重初始化 [mm,nn]=size(input_train); D(1,:)=ones(1,nn)/nn; %% 弱分類器分類 K=10; for i=1:K %訓練樣本歸一化 [inputn,inputps]=mapminmax(input_train); [outputn,outputps]=mapminmax(output_train); error(i)=0; %BP神經網絡構建 net=newff(inputn,outputn,6); net.trainParam.epochs=5; net.trainParam.lr=0.1; net.trainParam.goal=0.00004; %BP神經網絡訓練 net=train(net,inputn,outputn); %訓練數據預測 an1=sim(net,inputn); test_simu1(i,:)=mapminmax('reverse',an1,outputps); %測試數據預測 inputn_test =mapminmax('apply',input_test,inputps); an=sim(net,inputn_test); test_simu(i,:)=mapminmax('reverse',an,outputps); %統計輸出效果 kk1=find(test_simu1(i,:)>0); kk2=find(test_simu1(i,:)<0); aa(kk1)=1; aa(kk2)=-1; %統計錯誤樣本數 for j=1:nn if aa(j)~=output_train(j); error(i)=error(i)+D(i,j); end end %弱分類器i權重 at(i)=0.5*log((1-error(i))/error(i)); %更新D值 for j=1:nn D(i+1,j)=D(i,j)*exp(-at(i)*aa(j)*test_simu1(i,j)); end %D值歸一化 Dsum=sum(D(i+1,:)); D(i+1,:)=D(i+1,:)/Dsum; end %% 強分類器分類結果 output=sign(at*test_simu); %% 分類結果統計 %統計強分類器每類分類錯誤個數 kkk1=0; kkk2=0; for j=1:350 if output(j)==1 if output(j)~=output_test(j) kkk1=kkk1+1; end end if output(j)==-1 if output(j)~=output_test(j) kkk2=kkk2+1; end end end kkk1 kkk2 disp('第一類分類錯誤 第二類分類錯誤 總錯誤'); % 窗口顯示 disp([kkk1 kkk2 kkk1+kkk2]); plot(output) hold on plot(output_test,'g') %統計弱分離器效果 for i=1:K error1(i)=0; kk1=find(test_simu(i,:)>0); kk2=find(test_simu(i,:)<0); aa(kk1)=1; aa(kk2)=-1; for j=1:350 if aa(j)~=output_test(j); error1(i)=error1(i)+1; end end end disp('統計弱分類器分類效果'); error1 disp('強分類器分類誤差率') (kkk1+kkk2)/350 disp('弱分類器分類誤差率') (sum(error1)/(K*350))
結果如下:
分析結果可以看出,強分類器分類誤差率低於弱分類器分類誤差率,表明BP_Adaboos分類算法效果還是比較好的。對於案例中的數據,可以再加強訓練一下第二類分類的數據,最后使得分類效果更加優良。