機器學習算法崗常見筆試面試題整理


:https://www.baidu.com/link?url=d3iK-zj5jeKsVZ94M7Oo6n9tth1Wn-9IkZUo-2Mpcsmc5ov_EUxzBq2kXzm-7I0L1k2wd3oHrHVBJ3-YDC1Iu8l5I98zv-qzixjzYh2BLu662rzKkHrao0xjINLY6Wlj&wd=&eqid=f5f07060001bc0c9000000035f4248d5

  • 數據庫中的主鍵、索引和外鍵(數據分析崗經常問)
  • 決策樹ID3和C4.5的差別?各自優點?
  • Boost算法
  • CART(回歸樹用平方誤差最小化准則,分類樹用基尼指數最小化准則)
  • GBDT與隨機森林算法的原理以及區別。
  • 優化算法中常遇到的KKT條件?作用是?
  • 最近鄰算法KNN(分類與回歸)
  • L1和L2函數?L1和L2正則項的比較,如何解決 L1 求導困難?
  • L1正則為何可把系數壓縮成0,說明坐標下降法的具體實現細節
  • LR為什么用sigmoid函數。這個函數有什么優點和缺點?為什么不用其他函數?
  • LR和SVM的區別?libsvm和liblinear的區別?
  • Logistics與隨機森林比較
  • Logistics(理論推導);Logistic回歸的推導,如何得到objective function?
  • SVM與隨機森林的差別?
  • SVM為何要引入拉格朗日的優化方法?
  • SVM原問題和對偶問題關系?
  • SVM在哪個地方引入的核函數, 如果用高斯核可以升到多少維。
  • SVM如何防止過擬合?
  • SVM的目標函數?常用的核函數有哪些?
  • SVM的過程,理論推導
  • bagging、adaboost、boosting區別在哪
  • EM 與 k-means 的關系?
  • k-means算法中的k如何選取?
  • k-means算法初始點怎么選擇?
  • k-means的原理,優缺點以及改進。
  • k折交叉驗證中k取值多少有什么關系?
  • L2懲罰項是怎么減小Overfitting的?L1,L2等范數的通式是?差別是?在什么場景下用什么范數?L1在0處不可導,怎么處理?
  • 隨機森林和GBDT差別?
  • RF, GBDT, xgboost的區別?
  • 為什么要做數據歸一化?
  • 梯度下降法的原理以及各個變種(批量梯度下降,隨機梯度下降法,mini 梯度下降法),以及這幾個方法會不會有局部最優問題。
  • 牛頓法原理和適用場景,有什么缺點,如何改進(擬牛頓法)
  • 什么情況下一定會發生過擬合?
  • 貝葉斯估計?
  • 介紹LR、RF、GBDT ,分析它們的優缺點
  • 會哪些機器學習算法?信息熵公式?
  • 決策樹原理;決策樹處理連續值的方法;決策樹如何防止過擬合;決策樹過擬合哪些方法,前后剪枝。
  • 分類模型可做回歸分析嗎?反過來可以嗎?
  • 分類模型和回歸模型的區別?
  • 判別模型和生成模型?差別
  • 各個模型的Loss function,牛頓學習法、SGD如何訓練。
  • 在模型的訓練迭代中,怎么評估效果?
  • 如何防止過擬合(增加數據,減少模型復雜度->正則化)
  • 對於同分布的弱分類器,求分類器均值化之后的分布的均值跟方差。
  • 對於機器學習你都學了哪些?講一個印象深的。
  • 常見分類模型( svm,決策樹,貝葉斯等)的優缺點,適用場景以及如何選型
  • 數據歸一化的方式
  • 手寫k-means的偽代碼。
  • 手寫svm硬軟間隔對偶的推導
  • 手寫邏輯回歸(損失函數及更新方式推導)
  • BP算法原理
  • 改變隨機森林的訓練樣本數據量,是否會影響到隨機森林學習到的模型的復雜度?
  • 數據挖掘各種算法,以及各種場景下的解決方案
  • 是否了解mutual infomation、chi-square、LR前后向、樹模型等特征選擇方式。
  • 是否了解線性加權、bagging、boosting、cascade等模型融合方式
  • 有哪些常見的分類器,簡單介紹下原理
  • 機器學習與深度學習的區別
  • 線性回歸與邏輯回歸區別?
  • 機器學習:幾種樹模型的原理和對比,朴素貝葉斯分類器原理以及公式,出現估計概率值為 0 怎么處理(拉普拉斯平滑),缺點; 
  • DBSCAN聚類算法原理
  • 主成分分析法原理、MapReduce原理、Spark等(數據崗題)
  • 梯度下降、牛頓、擬牛頓算法的原理
  • 梯度下降的優缺點。
  • 深度學習有很大部分是CNN,給他用通俗的語言解釋下卷積的概念,解釋下CNN中的優勢及原因
  • 牛頓法、隨機梯度下降算法和直接梯度下降算法的區別?
  • 牛頓法推導
  • 特征選擇方法有哪些
  • 由數據引申到數據不平衡怎么處理(10W正例,1W負例,牛客上有原題)
  • 聊聊SVM,這段說了好久,從基本的線性可分到不可分,相關升維,各種核函數,每個是如何實現升。以及出現了XX問題,分析是樣本的原因還是其他原因。針對不同情況,采取什么解決方案較好。
  • 自己實現過什么機器學習算法
  • 解決過擬合的方法有哪些?
  • 解釋一下過擬合和欠擬合,有哪些方法防止過擬合。
  • 如何構造決策樹、計算信息熵和信息增益、說明C4.5 、ID3、 CART的區別及優缺點
  • 詳細討論了樣本采樣和bagging的問題
  • 說一下Adaboost,權值更新公式。當弱分類器是LR時,每個樣本的的權重是w1,w2...,寫出最終的決策公式。
  • 說了一下bagging跟boosting。
  • 說明L1和L2正則的效果與為什么形成這種情況(L1正則稀疏,L2正則平滑,之后說明就是畫圖說明正則化)
  • 選個你熟悉的機器學習方法 ,着重介紹一下產生原因,推導公式,背后統計意義什么等等
  • 邏輯回歸估計參數時的目標函數
  • 邏輯回歸的值表示概率嗎?
  • 數據挖掘的基礎知識,包括SVM,邏輯回歸、EM、K-means等,然后給出很多場景問你遇到這些情況你如何處理數據,怎么進行建模等
  • 隨機梯度下降,標准梯度
  • 隨機森林和GBDT的區別?LR的參數怎么求解?有沒有最優解?


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM