搜狗2016研發工程師筆試題中有關於機器學習的幾個判斷題及解析


1SVM對噪聲(如來自其他分布的噪聲樣本)魯棒       錯

 

SVM(支持向量機)本身對噪聲具有一定的魯棒性,但實驗證明,是當噪聲率低於一定水平(如40%)時噪聲對SVM沒有太大影響,算法仍有效,但隨着噪聲率的不斷增加,分類器的識別率會降低。http://www.docin.com/p-749158537.html

拓展:SVM在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,並能夠推廣應用到函數擬合等其他機器學習問題中。

在機器學習中,支持向量機(Support Vector Machine,還支持矢量網絡)是與相關的學習算法有關的監督學習模型,可以分析數據,識別模式,用於分類和回歸分析。

2、在AdaBoost算法中,所有被分錯的樣本的權重更新比例相同  

AdaBoost算法中不同的訓練集是通過調整每個樣本對應的權重來實現的。開始時,每個樣本對應的權重是相同的,即其中 為樣本個數,在此樣本分布下訓練出一弱分類器。對於分類錯誤的樣本,加大其對應的權重;而對於分類正確的樣本,降低其權重,這樣分錯的樣本就被突顯出來,從而得到一個新的樣本分布。在新的樣本分布下,再次對樣本進行訓練,得到弱分類器。依次類推,經過 次循環,得到 個弱分類器,把這 個弱分類器按一定的權重疊加(boost)起來,得到最終想要的強分類器。

AdaBoost算法的具體步驟如下:

1. 給定訓練樣本集S,其中XY分別對應於正例樣本和負例樣本; T為訓練的最大循環次數;

2. 初始化樣本權重為1/n ,即為訓練樣本的初始概率分布;

3. 第一次迭代:

(1) 訓練樣本的概率分布相當下,訓練弱分類器;

(2) 計算弱分類器的錯誤率;

(3) 選取合適閾值,使得誤差最小;

(4) 更新樣本權重;

T次循環后,得到T個弱分類器,按更新的權重疊加,最終得到的強分類器。

Adaboost算法是經過調整的Boosting算法,其能夠對弱學習得到的弱分類器的錯誤進行適應性調整。每一次迭代,都要對權重進行更新。更新的規則是:減小弱分類器分類效果較好的數據的概率,增大弱分類器分類效果較差的數據的概率。最終的分類器是個弱分類器的加權平均。

3、BoostBagging都是組合多個分類器投票的方法,二者均是根據單個分類器的正確率決定其權重          錯 

 Boost和Bagging都是組合多個弱分類器投票的方法,但二者均是根據單個分類器的正確率決定其權重的說法錯誤

BaggingBoosting的區別:二者的主要區別是取樣方式不同。Bagging采用均勻取樣,而Boosting根據錯誤率來取樣,因此Boosting的分類精度要優於BaggingBagging的訓練集的選擇是隨機的,各輪訓練集之間相互獨立,而Boostlng的各輪訓練集的選擇與前面各輪的學習結果有關

投票方法(Voting,也叫組合分類器,使用在文本分類中)就是一種典型的集成機器學習方法。它通過組合多個弱分類器來得到一個強分類器,包括Bagging和Boosting兩種方式,二者的主要區別是取樣方式不同。Bagging采用均勻取樣,而Boosting根據錯誤率來取樣,因此Boosting的分類精度要優於Bagging。投票分類方法雖然分類精度較高,但訓練時間較長。

Bagging的各個預測函數沒有權重,而Boosting是有權重的;Bagging的各個預測函數可以並行生成,而Boosting的各個預測函數只能順序生成。

拓展:bagging和boosting都可以有效地提高分類的准確性。在大多數數據集中,boosting的准確性比bagging高。在有些數據集中,boosting會引起退化--- Overfitting(過擬合)。

Boosting思想的一種改進型AdaBoost方法在郵件過濾、文本分類方面都有很好的性能。

 

4、給定個數據點,如果其中一半用於訓練,一半用於測試,則訓練誤差與測試誤差之間的差別會隨着的增加而減少         

未完待續,若有錯誤或不完整的地方還望大家指出!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM