1、SVM對噪聲(如來自其他分布的噪聲樣本)魯棒 錯
SVM(支持向量機)本身對噪聲具有一定的魯棒性,但實驗證明,是當噪聲率低於一定水平(如40%)時噪聲對SVM沒有太大影響,算法仍有效,但隨着噪聲率的不斷增加,分類器的識別率會降低。http://www.docin.com/p-749158537.html
拓展:SVM在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,並能夠推廣應用到函數擬合等其他機器學習問題中。
在機器學習中,支持向量機(Support Vector Machine,還支持矢量網絡)是與相關的學習算法有關的監督學習模型,可以分析數據,識別模式,用於分類和回歸分析。
2、在AdaBoost算法中,所有被分錯的樣本的權重更新比例相同 對
AdaBoost算法中不同的訓練集是通過調整每個樣本對應的權重來實現的。開始時,每個樣本對應的權重是相同的,即其中 n 為樣本個數,在此樣本分布下訓練出一弱分類器。對於分類錯誤的樣本,加大其對應的權重;而對於分類正確的樣本,降低其權重,這樣分錯的樣本就被突顯出來,從而得到一個新的樣本分布。在新的樣本分布下,再次對樣本進行訓練,得到弱分類器。依次類推,經過 T 次循環,得到 T 個弱分類器,把這 T 個弱分類器按一定的權重疊加(boost)起來,得到最終想要的強分類器。
AdaBoost算法的具體步驟如下:
1. 給定訓練樣本集S,其中X和Y分別對應於正例樣本和負例樣本; T為訓練的最大循環次數;
2. 初始化樣本權重為1/n ,即為訓練樣本的初始概率分布;
3. 第一次迭代:
(1) 訓練樣本的概率分布相當下,訓練弱分類器;
(2) 計算弱分類器的錯誤率;
(3) 選取合適閾值,使得誤差最小;
(4) 更新樣本權重;
經T次循環后,得到T個弱分類器,按更新的權重疊加,最終得到的強分類器。
Adaboost算法是經過調整的Boosting算法,其能夠對弱學習得到的弱分類器的錯誤進行適應性調整。每一次迭代,都要對權重進行更新。更新的規則是:減小弱分類器分類效果較好的數據的概率,增大弱分類器分類效果較差的數據的概率。最終的分類器是個弱分類器的加權平均。
3、Boost和Bagging都是組合多個分類器投票的方法,二者均是根據單個分類器的正確率決定其權重 錯
Boost和Bagging都是組合多個弱分類器投票的方法,但二者均是根據單個分類器的正確率決定其權重的說法錯誤
Bagging與Boosting的區別:二者的主要區別是取樣方式不同。Bagging采用均勻取樣,而Boosting根據錯誤率來取樣,因此Boosting的分類精度要優於Bagging。Bagging的訓練集的選擇是隨機的,各輪訓練集之間相互獨立,而Boostlng的各輪訓練集的選擇與前面各輪的學習結果有關
投票方法(Voting,也叫組合分類器,使用在文本分類中)就是一種典型的集成機器學習方法。它通過組合多個弱分類器來得到一個強分類器,包括Bagging和Boosting兩種方式,二者的主要區別是取樣方式不同。Bagging采用均勻取樣,而Boosting根據錯誤率來取樣,因此Boosting的分類精度要優於Bagging。投票分類方法雖然分類精度較高,但訓練時間較長。
Bagging的各個預測函數沒有權重,而Boosting是有權重的;Bagging的各個預測函數可以並行生成,而Boosting的各個預測函數只能順序生成。
拓展:bagging和boosting都可以有效地提高分類的准確性。在大多數數據集中,boosting的准確性比bagging高。在有些數據集中,boosting會引起退化--- Overfitting(過擬合)。
Boosting思想的一種改進型AdaBoost方法在郵件過濾、文本分類方面都有很好的性能。
4、給定n 個數據點,如果其中一半用於訓練,一半用於測試,則訓練誤差與測試誤差之間的差別會隨着n 的增加而減少 對
未完待續,若有錯誤或不完整的地方還望大家指出!