一、特征工程
1.為什么要對特征做歸一化?
2.什么是組合特征?如何處理高維組合特征?
3.請比較歐式距離與曼哈頓距離?
4.為什么一些場景中使用余弦相似度而不是歐式距離
5.One-hot的作用是什么?為什么不直接使用數字作為表示?
One-hot 主要用來編碼類別特征,即采用啞變量(dummy variables) 對類別進行編碼。它的作用是避免因將類別用數字作為表示而給函數帶來抖動。直接使用數字會給將人工誤差而導致的假設引入到類別特征中,比如類別之間的大小關系,以及差異關系等等。
二、模型評估
6.在模型評估過程中,過擬合和欠擬合具體指什么現象?
過擬合是指模型對於訓練數據擬合呈過當的情況,反映到評估指標上,就是模型在訓練集上的表現好,但是在測試集和新數據上的表現較差。欠擬合指的是模型在訓練和預測時表現都不好。用模型在數據上的偏差和方差指標來表示就是。欠擬合時候,偏差和方差都比較大,而過擬合時,偏差較小但方差較大。
7.
8.
9.對於樹形結構為什么不需要歸一化?
決策樹的學習過程本質上是選擇合適的特征,分裂並構建樹節點的過程;而分裂節點的標准是由樹構建前后的信息增益,信息增益比以及基尼系數等指標決定的。這些指標與當前特征值的大小本身並無關系。
10.什么是數據不平衡,如何解決?
數據不平衡主要指的是在有監督機器學習任務中,樣本標簽值的分布不均勻。這將使得模型更傾向於將結果預測為樣本標簽分布較多的值,從而使得少數樣本的預測性能下降。絕大多數常見的機器學習算法對於不平衡數據集都不能很好地工作。
解決方法:
1. 重新采樣訓練集
a. 欠采樣 –減少豐富類的大小來平衡數據集
b. 過采樣 – 增加稀有樣本,通過使用重復,自舉或合成少數類
2. 設計使用不平衡數據集的模型
a. 在代價函數中懲罰稀有類別的錯誤分類。
三、線性回歸與邏輯回歸
11.
12.
13.
14.
15.
四、朴素貝葉斯
1.寫出全概率公式&貝葉斯公式
2.朴素貝葉斯為什么“朴素naive”?
3.朴素貝葉斯有沒有超參數可以調?
4.朴素貝葉斯的工作流程是怎樣的?
5.朴素貝葉斯對異常值敏不敏感?
五、集成學習
1.
2.
3.
4.
5.
六、隨機森林
1.
2.
3.
4.
5.
七、GBDT
1.
2.
3.
4.
5.