轉:https://www.baidu.com/link?url=d3iK-zj5jeKsVZ94M7Oo6n9tth1Wn-9IkZUo-2Mpcsmc5ov_EUxzBq2kXzm-7I0L1k2wd3oHrHVBJ3-YDC1Iu8l5I98zv-qzixjzYh2BLu662rzKkHrao0xjINLY6Wlj&wd=&eqid=f5f07060001bc0c9000000035f4248d5
- 數據庫中的主鍵、索引和外鍵(數據分析崗經常問)
- 決策樹ID3和C4.5的差別?各自優點?
- Boost算法
- CART(回歸樹用平方誤差最小化准則,分類樹用基尼指數最小化准則)
- GBDT與隨機森林算法的原理以及區別。
- 優化算法中常遇到的KKT條件?作用是?
- 最近鄰算法KNN(分類與回歸)
- L1和L2函數?L1和L2正則項的比較,如何解決 L1 求導困難?
- L1正則為何可把系數壓縮成0,說明坐標下降法的具體實現細節
- LR為什么用sigmoid函數。這個函數有什么優點和缺點?為什么不用其他函數?
- LR和SVM的區別?libsvm和liblinear的區別?
- Logistics與隨機森林比較
- Logistics(理論推導);Logistic回歸的推導,如何得到objective function?
- SVM與隨機森林的差別?
- SVM為何要引入拉格朗日的優化方法?
- SVM原問題和對偶問題關系?
- SVM在哪個地方引入的核函數, 如果用高斯核可以升到多少維。
- SVM如何防止過擬合?
- SVM的目標函數?常用的核函數有哪些?
- SVM的過程,理論推導
- bagging、adaboost、boosting區別在哪
- EM 與 k-means 的關系?
- k-means算法中的k如何選取?
- k-means算法初始點怎么選擇?
- k-means的原理,優缺點以及改進。
- k折交叉驗證中k取值多少有什么關系?
- L2懲罰項是怎么減小Overfitting的?L1,L2等范數的通式是?差別是?在什么場景下用什么范數?L1在0處不可導,怎么處理?
- 隨機森林和GBDT差別?
- RF, GBDT, xgboost的區別?
- 為什么要做數據歸一化?
- 梯度下降法的原理以及各個變種(批量梯度下降,隨機梯度下降法,mini 梯度下降法),以及這幾個方法會不會有局部最優問題。
- 牛頓法原理和適用場景,有什么缺點,如何改進(擬牛頓法)
- 什么情況下一定會發生過擬合?
- 貝葉斯估計?
- 介紹LR、RF、GBDT ,分析它們的優缺點
- 會哪些機器學習算法?信息熵公式?
- 決策樹原理;決策樹處理連續值的方法;決策樹如何防止過擬合;決策樹過擬合哪些方法,前后剪枝。
- 分類模型可做回歸分析嗎?反過來可以嗎?
- 分類模型和回歸模型的區別?
- 判別模型和生成模型?差別
- 各個模型的Loss function,牛頓學習法、SGD如何訓練。
- 在模型的訓練迭代中,怎么評估效果?
- 如何防止過擬合(增加數據,減少模型復雜度->正則化)
- 對於同分布的弱分類器,求分類器均值化之后的分布的均值跟方差。
- 對於機器學習你都學了哪些?講一個印象深的。
- 常見分類模型( svm,決策樹,貝葉斯等)的優缺點,適用場景以及如何選型
- 數據歸一化的方式
- 手寫k-means的偽代碼。
- 手寫svm硬軟間隔對偶的推導
- 手寫邏輯回歸(損失函數及更新方式推導)
- BP算法原理
- 改變隨機森林的訓練樣本數據量,是否會影響到隨機森林學習到的模型的復雜度?
- 數據挖掘各種算法,以及各種場景下的解決方案
- 是否了解mutual infomation、chi-square、LR前后向、樹模型等特征選擇方式。
- 是否了解線性加權、bagging、boosting、cascade等模型融合方式
- 有哪些常見的分類器,簡單介紹下原理
- 機器學習與深度學習的區別
- 線性回歸與邏輯回歸區別?
- 機器學習:幾種樹模型的原理和對比,朴素貝葉斯分類器原理以及公式,出現估計概率值為 0 怎么處理(拉普拉斯平滑),缺點;
- DBSCAN聚類算法原理
- 主成分分析法原理、MapReduce原理、Spark等(數據崗題)
- 梯度下降、牛頓、擬牛頓算法的原理
- 梯度下降的優缺點。
- 深度學習有很大部分是CNN,給他用通俗的語言解釋下卷積的概念,解釋下CNN中的優勢及原因
- 牛頓法、隨機梯度下降算法和直接梯度下降算法的區別?
- 牛頓法推導
- 特征選擇方法有哪些
- 由數據引申到數據不平衡怎么處理(10W正例,1W負例,牛客上有原題)
- 聊聊SVM,這段說了好久,從基本的線性可分到不可分,相關升維,各種核函數,每個是如何實現升。以及出現了XX問題,分析是樣本的原因還是其他原因。針對不同情況,采取什么解決方案較好。
- 自己實現過什么機器學習算法
- 解決過擬合的方法有哪些?
- 解釋一下過擬合和欠擬合,有哪些方法防止過擬合。
- 如何構造決策樹、計算信息熵和信息增益、說明C4.5 、ID3、 CART的區別及優缺點
- 詳細討論了樣本采樣和bagging的問題
- 說一下Adaboost,權值更新公式。當弱分類器是LR時,每個樣本的的權重是w1,w2...,寫出最終的決策公式。
- 說了一下bagging跟boosting。
- 說明L1和L2正則的效果與為什么形成這種情況(L1正則稀疏,L2正則平滑,之后說明就是畫圖說明正則化)
- 選個你熟悉的機器學習方法 ,着重介紹一下產生原因,推導公式,背后統計意義什么等等
- 邏輯回歸估計參數時的目標函數
- 邏輯回歸的值表示概率嗎?
- 數據挖掘的基礎知識,包括SVM,邏輯回歸、EM、K-means等,然后給出很多場景問你遇到這些情況你如何處理數據,怎么進行建模等
- 隨機梯度下降,標准梯度
- 隨機森林和GBDT的區別?LR的參數怎么求解?有沒有最優解?