機器學習算法崗常見筆試面試題整理

本文轉載自查看原文 2020-08-23 18:52 1323 Python編程實踐

轉：https://www.baidu.com/link?url=d3iK-zj5jeKsVZ94M7Oo6n9tth1Wn-9IkZUo-2Mpcsmc5ov_EUxzBq2kXzm-7I0L1k2wd3oHrHVBJ3-YDC1Iu8l5I98zv-qzixjzYh2BLu662rzKkHrao0xjINLY6Wlj&wd=&eqid=f5f07060001bc0c9000000035f4248d5

數據庫中的主鍵、索引和外鍵（數據分析崗經常問）
決策樹ID3和C4.5的差別？各自優點？
Boost算法
CART（回歸樹用平方誤差最小化准則，分類樹用基尼指數最小化准則）
GBDT與隨機森林算法的原理以及區別。
優化算法中常遇到的KKT條件？作用是？
最近鄰算法KNN（分類與回歸）
L1和L2函數？L1和L2正則項的比較，如何解決 L1 求導困難？
L1正則為何可把系數壓縮成0，說明坐標下降法的具體實現細節
LR為什么用sigmoid函數。這個函數有什么優點和缺點？為什么不用其他函數？
LR和SVM的區別？libsvm和liblinear的區別？
Logistics與隨機森林比較
Logistics（理論推導）；Logistic回歸的推導，如何得到objective function？
SVM與隨機森林的差別？
SVM為何要引入拉格朗日的優化方法？
SVM原問題和對偶問題關系？
SVM在哪個地方引入的核函數, 如果用高斯核可以升到多少維。
SVM如何防止過擬合？
SVM的目標函數？常用的核函數有哪些？
SVM的過程，理論推導
bagging、adaboost、boosting區別在哪
EM 與 k-means 的關系？
k-means算法中的k如何選取？
k-means算法初始點怎么選擇？
k-means的原理，優缺點以及改進。
k折交叉驗證中k取值多少有什么關系？
L2懲罰項是怎么減小Overfitting的？L1，L2等范數的通式是？差別是？在什么場景下用什么范數？L1在0處不可導，怎么處理？
隨機森林和GBDT差別？
RF, GBDT, xgboost的區別？
為什么要做數據歸一化？
梯度下降法的原理以及各個變種（批量梯度下降，隨機梯度下降法，mini 梯度下降法），以及這幾個方法會不會有局部最優問題。
牛頓法原理和適用場景，有什么缺點，如何改進（擬牛頓法）
什么情況下一定會發生過擬合？
貝葉斯估計？
介紹LR、RF、GBDT ，分析它們的優缺點
會哪些機器學習算法？信息熵公式？
決策樹原理；決策樹處理連續值的方法；決策樹如何防止過擬合；決策樹過擬合哪些方法，前后剪枝。
分類模型可做回歸分析嗎？反過來可以嗎？
分類模型和回歸模型的區別？
判別模型和生成模型？差別
各個模型的Loss function，牛頓學習法、SGD如何訓練。
在模型的訓練迭代中，怎么評估效果？
如何防止過擬合（增加數據，減少模型復雜度->正則化）
對於同分布的弱分類器，求分類器均值化之后的分布的均值跟方差。
對於機器學習你都學了哪些？講一個印象深的。
常見分類模型（ svm，決策樹，貝葉斯等）的優缺點，適用場景以及如何選型
數據歸一化的方式
手寫k-means的偽代碼。
手寫svm硬軟間隔對偶的推導
手寫邏輯回歸（損失函數及更新方式推導）
BP算法原理
改變隨機森林的訓練樣本數據量，是否會影響到隨機森林學習到的模型的復雜度？
數據挖掘各種算法，以及各種場景下的解決方案
是否了解mutual infomation、chi-square、LR前后向、樹模型等特征選擇方式。
是否了解線性加權、bagging、boosting、cascade等模型融合方式
有哪些常見的分類器，簡單介紹下原理
機器學習與深度學習的區別
線性回歸與邏輯回歸區別？
機器學習：幾種樹模型的原理和對比，朴素貝葉斯分類器原理以及公式，出現估計概率值為 0 怎么處理（拉普拉斯平滑），缺點；
DBSCAN聚類算法原理
主成分分析法原理、MapReduce原理、Spark等（數據崗題）
梯度下降、牛頓、擬牛頓算法的原理
梯度下降的優缺點。
深度學習有很大部分是CNN，給他用通俗的語言解釋下卷積的概念，解釋下CNN中的優勢及原因
牛頓法、隨機梯度下降算法和直接梯度下降算法的區別？
牛頓法推導
特征選擇方法有哪些
由數據引申到數據不平衡怎么處理（10W正例，1W負例，牛客上有原題）
聊聊SVM，這段說了好久，從基本的線性可分到不可分，相關升維，各種核函數，每個是如何實現升。以及出現了XX問題，分析是樣本的原因還是其他原因。針對不同情況，采取什么解決方案較好。
自己實現過什么機器學習算法
解決過擬合的方法有哪些？
解釋一下過擬合和欠擬合，有哪些方法防止過擬合。
如何構造決策樹、計算信息熵和信息增益、說明C4.5 、ID3、 CART的區別及優缺點
詳細討論了樣本采樣和bagging的問題
說一下Adaboost，權值更新公式。當弱分類器是LR時，每個樣本的的權重是w1，w2...,寫出最終的決策公式。
說了一下bagging跟boosting。
說明L1和L2正則的效果與為什么形成這種情況（L1正則稀疏，L2正則平滑，之后說明就是畫圖說明正則化）
選個你熟悉的機器學習方法，着重介紹一下產生原因，推導公式，背后統計意義什么等等
邏輯回歸估計參數時的目標函數
邏輯回歸的值表示概率嗎？
數據挖掘的基礎知識，包括SVM,邏輯回歸、EM、K-means等，然后給出很多場景問你遇到這些情況你如何處理數據，怎么進行建模等
隨機梯度下降，標准梯度
隨機森林和GBDT的區別？LR的參數怎么求解？有沒有最優解？

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習常見面試題整理機器學習筆試面試題匯總與詳細解答深度學習(一)-------算法崗面試題深度學習(二)-----算法崗面試題深度學習(三)----算法崗面試題【網易】2018秋招筆試（機器學習算法崗）機器學習常見面試題常見算法筆試或面試題機器學習算法崗面試與提問總結收集筆試面試題型（機器學習+目標檢測）