機器學習常見面試題

本文轉載自查看原文 2017-05-22 17:17 15385 ML

1、L1范式和L2方式的區別

（1）L1范式是對應參數向量絕對值之和

（2）L1范式具有稀疏性

（3）L1范式可以用來作為特征選擇，並且可解釋性較強（這里的原理是在實際Loss function中都需要求最小值，根據L1的定義可知L1最小值只有0，故可以通過這種方式來進行特征選擇）

（4）L2范式是對應參數向量的平方和，再求平方根

（5）L2范式是為了防止機器學習的過擬合，提升模型的泛化能力

2、優化算法及其優缺點

溫馨提示：在回答面試官的問題的時候，往往將問題往大的方面去回答，這樣不會陷於小的技術上死磕，最后很容易把自己嗑死了。

（1）隨即梯度下降

　優點：可以一定程度上解決局部最優解的問題

　　缺點：收斂速度較慢

（2）批量梯度下降

　　優點：容易陷入局部最優解

　　缺點：收斂速度較快

（3）mini_batch梯度下降

　　綜合隨即梯度下降和批量梯度下降的優缺點，提取的一個中和的方法。

（4）牛頓法

　　牛頓法在迭代的時候，需要計算Hessian矩陣，當維度較高的時候，計算Hessian矩陣比較困難。

（5）擬牛頓法

　　擬牛頓法是為了改進牛頓法在迭代過程中，計算Hessian矩陣而提取的算法，它采用的方式是通過逼近Hessian的方式來進行求解。

（6）共軛梯度

（7）啟發式的優化算法

　　啟發式的優化算法有遺傳算法，粒子群算法等。這類算法的主要思想就是設定一個目標函數，每次迭代根據相應的策略優化種群。直到滿足什么樣的條件為止。

3、RF與GBDT之間的區別

（1）相同點

都是由多棵樹組成
最終的結果都是由多棵樹一起決定

（2）不同點

組成隨機森林的樹可以分類樹也可以是回歸樹，而GBDT只由回歸樹組成
組成隨機森林的樹可以並行生成，而GBDT是串行生成
隨機森林的結果是多數表決表決的，而GBDT則是多棵樹累加之和
隨機森林對異常值不敏感，而GBDT對異常值比較敏感
隨機森林是通過減少模型的方差來提高性能，而GBDT是減少模型的偏差來提高性能的
隨機森林不需要進行數據預處理，即特征歸一化。而GBDT則需要進行特征歸一化

（3）RF：

　　優點：

易於理解，易於可視化
不需要太多的數據預處理，即數據歸一化
不易過擬合
易於並行化

　　缺點：　　

不適合小樣本數據，只適合大樣本數據
大多數情況下，RF的精度低於GBDT
適合決策邊界的是矩陣，不適合對角線型

（4）GBDT

　　優點：

精度高

　　缺點：

參數較多，容易過擬合
不易並行化

4、SVM的模型的推導

5、SVM與樹模型之間的區別

（1）SVM

SVM是通過核函數將樣本映射到高緯空間，再通過線性的SVM方式求解分界面進行分類。
對缺失值比較敏感
可以解決高緯度的問題
可以避免局部極小值的問題
可以解決小樣本機器學習的問題

（2）樹模型

可以解決大樣本的問題
易於理解和解釋
會陷入局部最優解
易過擬合

6、梯度消失和梯度膨脹

（1）梯度消失：

根據鏈式法則，如果每一層神經元對上一層的輸出的偏導乘上權重結果都小於1的話，那么即使這個結果是0.99，在經過足夠多層傳播之后，誤差對輸入層的偏導會趨於0

可以采用ReLU激活函數有效的解決梯度消失的情況

（2）梯度膨脹

根據鏈式法則，如果每一層神經元對上一層的輸出的偏導乘上權重結果都大於1的話，在經過足夠多層傳播之后，誤差對輸入層的偏導會趨於無窮大
可以通過激活函數來解決

7、LR的原理和Loss的推導

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習常見面試題整理機器學習常見面試題—支持向量機SVM MFC學習（五）常見面試題常見面試題常見面試之機器學習算法思想簡單梳理 Tomcat學習總結（14）—— Tomcat常見面試題機器學習算法崗常見筆試面試題整理 Redis常見面試題 Spring常見面試題總結 JavaScript常見面試題