BP_Adaboost 模型及其分類應用


一、BP_ Adaboost模型

  Adaboost 算法的思想是合並多個“弱”分類器的輸出以產生有效分類。其主要步驟為 :

(1)首先給出弱學習算法和樣本空間(x, y) ,從樣本空間中找出 m 組訓練數據,每組訓練數據的權重都是 1 /m。

(2)用弱學習算法迭代運算 T 次,每次運算后都按照分類結果更新訓練數據權重分布,對於分類失敗的訓練個體賦予較大權重,下一次迭代運算時更加關注這些訓練個體。弱分類器通過反復迭代得到一個分類函數序列 f1, ,f2 , … , fT ,每個分類函數賦予一個權重,分類結果越好的函數,其對應權重越大。

(3)T 次迭代之后,最終強分類函數 F 由弱分類函數加權得 。 

   BP_Adaboost 模型即把 BP 神經網絡作為弱分類器,反復訓練 BP 神經網絡預測樣本輸出,通過 Adaboost 算法得到多個 BP 神經網絡弱分類器組成的強分類器。

二、BP_ Adaboost模型分類算法流程

基於 BP_Adaboost 模型的 分類算法流程圖如下:

算法步驟如下:

step1:數據選擇和網絡初始化。從樣本間中隨機選擇 m 組訓練數據,初始化測試數據的分布權值 D,(i) = l/m,根據樣本輸入輸出維數確定神經網絡結構,初始化 BP 神經網絡權值和閾值 。

step2::弱分類器預測。訓練第 t 個弱分類器時,用訓練數據訓練 BP 神經網絡並且預測訓練數據輸出,得到預測序列 g(t)的預測誤差和 et,誤差和 et的計算公式為 

式中, g(t )為預測分類結果,y為期望分類結果 。 

step3: 計算預測序列權重 根據預測序列 g(t) 的預測誤差 et計算序列的權重 αt , 權重算公式為 

 

step4: 測試數據權重調整 根據預測序列權重 αt,調整下一輪訓練樣本的權重,調整公式為

式中, βt是歸化因子,目的是在權重比例不變的情況下使分布權值和為 1 。

step5: :強分類函數 訓練 T 輪后得到j T 組弱分類函數 f (gt ,at,由 T 組弱分類函數 f (gt ,at組合得到了強分類函數 h(x) 

三、BP_ Adaboost模型分類實例     

  現有某公司財務狀況數據共1350組,每組數據共有11維,前10維分別代表公司的分費用利潤率、資產營運能力、公司總資產、總資產增長率、流動比亘在、營業現金流量、審計意見類型、每股收益、存貨周轉率和資產負債率十項指 ,最后1維代表公司的財務狀況,其中1代表該公司財務狀況良好,-1則代表該公司財務出現問題。

      根據要求,選取其中1000組數據作為訓練集,剩余的350組作為測試集,采用的BP神經網絡結構為10-6-1,共訓練生成10個BP神經網絡弱分類器,最后用10個弱分類器組成的強分類器對公司財務進行分類。

  利用matlab實現該分類問題,代碼如下:

  

%% 清空環境變量
clc
clear

%% 下載數據
load data input_train output_train input_test output_test

%% 權重初始化
[mm,nn]=size(input_train);
D(1,:)=ones(1,nn)/nn;

%% 弱分類器分類
K=10;
for i=1:K
    
    %訓練樣本歸一化
    [inputn,inputps]=mapminmax(input_train);
    [outputn,outputps]=mapminmax(output_train);
    error(i)=0;
    
    %BP神經網絡構建
    net=newff(inputn,outputn,6);
    net.trainParam.epochs=5;
    net.trainParam.lr=0.1;
    net.trainParam.goal=0.00004;
    
    %BP神經網絡訓練
    net=train(net,inputn,outputn);
    
    %訓練數據預測
    an1=sim(net,inputn);
    test_simu1(i,:)=mapminmax('reverse',an1,outputps);
    
    %測試數據預測
    inputn_test =mapminmax('apply',input_test,inputps);
    an=sim(net,inputn_test);
    test_simu(i,:)=mapminmax('reverse',an,outputps);
    
    %統計輸出效果
    kk1=find(test_simu1(i,:)>0);
    kk2=find(test_simu1(i,:)<0);
    
    aa(kk1)=1;
    aa(kk2)=-1;
    
    %統計錯誤樣本數
    for j=1:nn
        if aa(j)~=output_train(j);
            error(i)=error(i)+D(i,j);
        end
    end
    
    %弱分類器i權重
    at(i)=0.5*log((1-error(i))/error(i));
    
    %更新D值
    for j=1:nn
        D(i+1,j)=D(i,j)*exp(-at(i)*aa(j)*test_simu1(i,j));
    end
    
    %D值歸一化
    Dsum=sum(D(i+1,:));
    D(i+1,:)=D(i+1,:)/Dsum;
    
end

%% 強分類器分類結果
output=sign(at*test_simu);

%% 分類結果統計
%統計強分類器每類分類錯誤個數
kkk1=0;
kkk2=0;
for j=1:350
    if output(j)==1
        if output(j)~=output_test(j)
            kkk1=kkk1+1;
        end
    end
    if output(j)==-1
        if output(j)~=output_test(j)
            kkk2=kkk2+1;
        end
    end
end

kkk1
kkk2
disp('第一類分類錯誤  第二類分類錯誤  總錯誤');
% 窗口顯示
disp([kkk1 kkk2 kkk1+kkk2]);

plot(output)
hold on
plot(output_test,'g')

%統計弱分離器效果
for i=1:K
    error1(i)=0;
    kk1=find(test_simu(i,:)>0);
    kk2=find(test_simu(i,:)<0);
    
    aa(kk1)=1;
    aa(kk2)=-1;
    
    for j=1:350
        if aa(j)~=output_test(j);
            error1(i)=error1(i)+1;
        end
    end
end
disp('統計弱分類器分類效果');
error1

disp('強分類器分類誤差率')
(kkk1+kkk2)/350

disp('弱分類器分類誤差率')
(sum(error1)/(K*350))

  結果如下:

 

 

 

  分析結果可以看出,強分類器分類誤差率低於弱分類器分類誤差率,表明BP_Adaboos分類算法效果還是比較好的。對於案例中的數據,可以再加強訓練一下第二類分類的數據,最后使得分類效果更加優良。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM