1.先弄清楚模型融合中的投票的概念
分為軟投票和硬投票,硬投票就是幾個模型預測的哪一類最多,最終模型就預測那一類,在投票相同的情況下,投票結果會按照分類器的排序選擇排在第一個的分類器結果。但硬投票有個缺點就是不能預測概率。而軟投票返回的結果是一組概率的加權平均數。
https://blog.csdn.net/yanyanyufei96/article/details/71195063
https://blog.csdn.net/good_boyzq/article/details/54809540(搜投票)
2. booststraping:意思是依靠你自己的資源,稱為自助法,它是一種有放回的抽樣方法,它是非參數統計中一種重要的估計統計量方差進而進行區間估計的統計方法。
其核心思想和基本步驟如下:
(1)采用重抽樣技術從原始樣本中抽取一定數量(自己給定)的樣本,此過程允許重復抽樣。
(2)根據抽出的樣本計算統計量T。
(3)重復上述N次(一般大於1000),得到統計量T。
(4)計算上述N個統計量T的樣本方差,得到統計量的方差。
應該說是Bootstrap是現代統計學較為流行的方法,小樣本效果好,通過方差的估計可以構造置信區間等。
https://blog.csdn.net/wangqi880/article/details/49765673
3.bagging
https://www.cnblogs.com/dudumiaomiao/p/6361777.html
https://blog.csdn.net/ice110956/article/details/10077717
Bagging即套袋法,其算法過程如下:
A)從原始樣本集中抽取訓練集.每輪從原始樣本集中使用Bootstraping的方法抽取n個訓練樣本(在訓練集中,有些樣本可能被多次抽取到,而有些樣本可能一次都沒有被抽中).共進行k輪抽取,得到k個訓練集.(k個訓練集相互獨立)
B)每次使用一個訓練集得到一個模型,k個訓練集共得到k個模型.(注:根據具體問題采用不同的分類或回歸方法,如決策樹、神經網絡等)
C)對分類問題:將上步得到的k個模型采用投票的方式得到分類結果;對回歸問題,計算上述模型的均值作為最后的結果.
4.boosting
https://blog.csdn.net/ice110956/article/details/10077717
現在覺得這個的解釋應該算是adaboost的,adaboost算是boosting里面最經典的模型
1.e表示某個弱分類器的錯誤分類率,計算用來作為這個分類器的可信度權值a,以及更新采樣權值D。
2.D表示原始數據的權值矩陣,用來隨機采樣。剛開始每個樣本的采樣概率都一樣,為1/m。在某個弱分類器分類時,分類錯誤或對,則D就會根據e相應地增加或減少,那么分錯的樣本由於D增大,在下一次分類采樣時被采樣的概率增加了,從而提高上次錯分樣本下次分對的概率。
3.α為弱分類器的可信度,bagging中隱含的α為1,boosting中,根據每個弱分類器的表現(e較低),決定這個分類器的結果在總的結果中所占的權重,分類准的自然占較多的權重。
最后根據可信度α,以及各個弱分類器的估計h(x),得到最后的結果。
5.
Bagging,Boosting二者之間的區別
https://www.cnblogs.com/dudumiaomiao/p/6361777.html
Bagging和Boosting的區別:
1)樣本選擇上:
Bagging:訓練集是在原始集中有放回選取的,從原始集中選出的各輪訓練集之間是獨立的.
Boosting:每一輪的訓練集不變(個人覺得這里說的訓練集不變是說的總的訓練集,對於每個分類器的訓練集還是在變化的,畢竟每次都是抽樣),只是訓練集中每個樣例在分類器中的權重發生變化.而權值是根據上一輪的分類結果進行調整.
2)樣例權重:
Bagging:使用均勻取樣,每個樣例的權重相等
Boosting:根據錯誤率不斷調整樣例的權值,錯誤率越大則權重越大.
3)預測函數:
Bagging:所有預測函數的權重相等.
Boosting:每個弱分類器都有相應的權重,對於分類誤差小的分類器會有更大的權重.
4)並行計算:
Bagging:各個預測函數可以並行生成
Boosting:各個預測函數只能順序生成,因為后一個模型參數需要前一輪模型的結果.
個人感覺並行計算,訓練集不變才是真正的不同,特別是並行計算