搜狗2016研發工程師筆試題中有關於機器學習的幾個判斷題及解析

本文轉載自查看原文 2016-02-17 12:03 2320 算法與機器學習

1、SVM對噪聲（如來自其他分布的噪聲樣本）魯棒錯

SVM（支持向量機）本身對噪聲具有一定的魯棒性，但實驗證明，是當噪聲率低於一定水平（如40%）時噪聲對SVM沒有太大影響，算法仍有效，但隨着噪聲率的不斷增加，分類器的識別率會降低。http://www.docin.com/p-749158537.html

拓展：SVM在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢，並能夠推廣應用到函數擬合等其他機器學習問題中。

在機器學習中，支持向量機（Support Vector Machine，還支持矢量網絡）是與相關的學習算法有關的監督學習模型，可以分析數據，識別模式，用於分類和回歸分析。

2、在AdaBoost算法中，所有被分錯的樣本的權重更新比例相同對

AdaBoost算法中不同的訓練集是通過調整每個樣本對應的權重來實現的。開始時，每個樣本對應的權重是相同的，即其中 n 為樣本個數，在此樣本分布下訓練出一弱分類器。對於分類錯誤的樣本，加大其對應的權重；而對於分類正確的樣本，降低其權重，這樣分錯的樣本就被突顯出來，從而得到一個新的樣本分布。在新的樣本分布下，再次對樣本進行訓練，得到弱分類器。依次類推，經過 T 次循環，得到 T 個弱分類器，把這 T 個弱分類器按一定的權重疊加（boost）起來，得到最終想要的強分類器。

AdaBoost算法的具體步驟如下：

1. 給定訓練樣本集S，其中X和Y分別對應於正例樣本和負例樣本； T為訓練的最大循環次數；

2. 初始化樣本權重為1/n ，即為訓練樣本的初始概率分布；

3. 第一次迭代：

(1) 訓練樣本的概率分布相當下，訓練弱分類器；

(2) 計算弱分類器的錯誤率；

(3) 選取合適閾值，使得誤差最小；

(4) 更新樣本權重；

經T次循環后，得到T個弱分類器，按更新的權重疊加，最終得到的強分類器。

Adaboost算法是經過調整的Boosting算法，其能夠對弱學習得到的弱分類器的錯誤進行適應性調整。每一次迭代，都要對權重進行更新。更新的規則是：減小弱分類器分類效果較好的數據的概率，增大弱分類器分類效果較差的數據的概率。最終的分類器是個弱分類器的加權平均。

3、Boost和Bagging都是組合多個分類器投票的方法，二者均是根據單個分類器的正確率決定其權重錯

Boost和Bagging都是組合多個弱分類器投票的方法，但二者均是根據單個分類器的正確率決定其權重的說法錯誤

Bagging與Boosting的區別：二者的主要區別是取樣方式不同。Bagging采用均勻取樣，而Boosting根據錯誤率來取樣，因此Boosting的分類精度要優於Bagging。Bagging的訓練集的選擇是隨機的，各輪訓練集之間相互獨立，而Boostlng的各輪訓練集的選擇與前面各輪的學習結果有關

投票方法（Voting，也叫組合分類器，使用在文本分類中）就是一種典型的集成機器學習方法。它通過組合多個弱分類器來得到一個強分類器，包括Bagging和Boosting兩種方式，二者的主要區別是取樣方式不同。Bagging采用均勻取樣，而Boosting根據錯誤率來取樣，因此Boosting的分類精度要優於Bagging。投票分類方法雖然分類精度較高，但訓練時間較長。

Bagging的各個預測函數沒有權重，而Boosting是有權重的；Bagging的各個預測函數可以並行生成，而Boosting的各個預測函數只能順序生成。

拓展：bagging和boosting都可以有效地提高分類的准確性。在大多數數據集中，boosting的准確性比bagging高。在有些數據集中，boosting會引起退化--- Overfitting(過擬合)。

Boosting思想的一種改進型AdaBoost方法在郵件過濾、文本分類方面都有很好的性能。

4、給定n 個數據點，如果其中一半用於訓練，一半用於測試，則訓練誤差與測試誤差之間的差別會隨着n 的增加而減少對

未完待續，若有錯誤或不完整的地方還望大家指出！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 網易機器學習算法工程師筆試編程題 2018 年大疆機器學習算法工程師春季提前批筆試題試卷：百度2016研發工程師筆試題（一）阿里巴巴集團2016校園招聘-Python工程師筆試題（附加題+部分答案）網易2019校招C++研發工程師筆試編程題 2014百度校園招聘筆試題（上海軟件研發工程師）搞機器學習要哪些技能/算法工程師的技能如何准備機器學習工程師的面試？機器學習算法工程師實習面試總結 [學習筆記] C++ 歷年試題解析（一）--判斷題