BP_Adaboost 模型及其分類應用

本文轉載自查看原文 2019-05-26 15:24 1124

一、BP_ Adaboost模型

Adaboost 算法的思想是合並多個“弱”分類器的輸出以產生有效分類。其主要步驟為：

（1）首先給出弱學習算法和樣本空間（x， y），從樣本空間中找出 m 組訓練數據，每組訓練數據的權重都是 1 /m。

（2）用弱學習算法迭代運算 T 次，每次運算后都按照分類結果更新訓練數據權重分布，對於分類失敗的訓練個體賦予較大權重，下一次迭代運算時更加關注這些訓練個體。弱分類器通過反復迭代得到一個分類函數序列 f1, ,f2 ， … ， fT ，每個分類函數賦予一個權重，分類結果越好的函數，其對應權重越大。

（3）T 次迭代之后，最終強分類函數 F 由弱分類函數加權得。

BP_Adaboost 模型即把 BP 神經網絡作為弱分類器，反復訓練 BP 神經網絡預測樣本輸出，通過 Adaboost 算法得到多個 BP 神經網絡弱分類器組成的強分類器。

二、BP_ Adaboost模型分類算法流程

基於 BP_Adaboost 模型的分類算法流程圖如下：

算法步驟如下：

step1:數據選擇和網絡初始化。從樣本空間中隨機選擇 m 組訓練數據，初始化測試數據的分布權值 D,(i) = l/m，根據樣本輸入輸出維數確定神經網絡結構，初始化 BP 神經網絡權值和閾值。

step2:：弱分類器預測。訓練第 t 個弱分類器時，用訓練數據訓練 BP 神經網絡並且預測訓練數據輸出，得到預測序列 g(t）的預測誤差和 e_t，誤差和 e_t的計算公式為

式中， g(t ）為預測分類結果，y為期望分類結果。

step3: 計算預測序列權重。根據預測序列 g(t）的預測誤差 e_t，計算序列的權重 α_t ，權重計算公式為

step4: 測試數據權重調整。根據預測序列權重 α_t，調整下一輪訓練樣本的權重，調整公式為

式中， β_t是歸一化因子，目的是在權重比例不變的情況下使分布權值和為 1 。

step5: ：強分類函數。訓練 T 輪后得到j T 組弱分類函數 f (g_t ,a_t），由 T 組弱分類函數 f (g_t ,a_t）組合得到了強分類函數 h(x)

三、BP_ Adaboost模型分類實例

　　現有某公司財務狀況數據共1350組，每組數據共有11維，前10維分別代表公司的分費用利潤率、資產營運能力、公司總資產、總資產增長率、流動比亘在、營業現金流量、審計意見類型、每股收益、存貨周轉率和資產負債率十項指標，最后1維代表公司的財務狀況，其中1代表該公司財務狀況良好，-1則代表該公司財務出現問題。

根據要求，選取其中1000組數據作為訓練集，剩余的350組作為測試集，采用的BP神經網絡結構為10-6-1，共訓練生成10個BP神經網絡弱分類器，最后用10個弱分類器組成的強分類器對公司財務進行分類。

　　利用matlab實現該分類問題，代碼如下：

%% 清空環境變量
clc
clear

%% 下載數據
load data input_train output_train input_test output_test

%% 權重初始化
[mm,nn]=size(input_train);
D(1,:)=ones(1,nn)/nn;

%% 弱分類器分類
K=10;
for i=1:K
    
    %訓練樣本歸一化
    [inputn,inputps]=mapminmax(input_train);
    [outputn,outputps]=mapminmax(output_train);
    error(i)=0;
    
    %BP神經網絡構建
    net=newff(inputn,outputn,6);
    net.trainParam.epochs=5;
    net.trainParam.lr=0.1;
    net.trainParam.goal=0.00004;
    
    %BP神經網絡訓練
    net=train(net,inputn,outputn);
    
    %訓練數據預測
    an1=sim(net,inputn);
    test_simu1(i,:)=mapminmax('reverse',an1,outputps);
    
    %測試數據預測
    inputn_test =mapminmax('apply',input_test,inputps);
    an=sim(net,inputn_test);
    test_simu(i,:)=mapminmax('reverse',an,outputps);
    
    %統計輸出效果
    kk1=find(test_simu1(i,:)>0);
    kk2=find(test_simu1(i,:)<0);
    
    aa(kk1)=1;
    aa(kk2)=-1;
    
    %統計錯誤樣本數
    for j=1:nn
        if aa(j)~=output_train(j);
            error(i)=error(i)+D(i,j);
        end
    end
    
    %弱分類器i權重
    at(i)=0.5*log((1-error(i))/error(i));
    
    %更新D值
    for j=1:nn
        D(i+1,j)=D(i,j)*exp(-at(i)*aa(j)*test_simu1(i,j));
    end
    
    %D值歸一化
    Dsum=sum(D(i+1,:));
    D(i+1,:)=D(i+1,:)/Dsum;
    
end

%% 強分類器分類結果
output=sign(at*test_simu);

%% 分類結果統計
%統計強分類器每類分類錯誤個數
kkk1=0;
kkk2=0;
for j=1:350
    if output(j)==1
        if output(j)~=output_test(j)
            kkk1=kkk1+1;
        end
    end
    if output(j)==-1
        if output(j)~=output_test(j)
            kkk2=kkk2+1;
        end
    end
end

kkk1
kkk2
disp('第一類分類錯誤  第二類分類錯誤  總錯誤');
% 窗口顯示
disp([kkk1 kkk2 kkk1+kkk2]);

plot(output)
hold on
plot(output_test,'g')

%統計弱分離器效果
for i=1:K
    error1(i)=0;
    kk1=find(test_simu(i,:)>0);
    kk2=find(test_simu(i,:)<0);
    
    aa(kk1)=1;
    aa(kk2)=-1;
    
    for j=1:350
        if aa(j)~=output_test(j);
            error1(i)=error1(i)+1;
        end
    end
end
disp('統計弱分類器分類效果');
error1

disp('強分類器分類誤差率')
(kkk1+kkk2)/350

disp('弱分類器分類誤差率')
(sum(error1)/(K*350))

　　結果如下：

　　分析結果可以看出，強分類器分類誤差率低於弱分類器分類誤差率，表明BP_Adaboos分類算法效果還是比較好的。對於案例中的數據，可以再加強訓練一下第二類分類的數據，最后使得分類效果更加優良。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MATLAB神經網絡（5）基於BP_Adaboost的強分類器設計——公司財務預警建模 BP神經網絡分類應用關於adaboost分類器 Spark ML下實現的多分類adaboost+naivebayes算法在文本分類上的應用 AdaBoost級聯分類器文本分類學習（六） AdaBoost和SVM adaboost 基於錯誤提升分類器 Opencv——級聯分類器（AdaBoost） BP神經網絡-- 基本模型 MATLAB上實現Adaboost二分類和多分類