機器學習知識點整理(一)


一、特征工程

 

1.為什么要對特征做歸一化?

 

 

 

 

 

2.什么是組合特征?如何處理高維組合特征?

 

 

 

 

3.請比較歐式距離與曼哈頓距離?

 

 

4.為什么一些場景中使用余弦相似度而不是歐式距離

 

 

5.One-hot的作用是什么?為什么不直接使用數字作為表示?

One-hot 主要用來編碼類別特征,即采用啞變量(dummy variables) 對類別進行編碼。它的作用是避免因將類別用數字作為表示而給函數帶來抖動。直接使用數字會給將人工誤差而導致的假設引入到類別特征中,比如類別之間的大小關系,以及差異關系等等。

二、模型評估

6.在模型評估過程中,過擬合和欠擬合具體指什么現象?

過擬合是指模型對於訓練數據擬合呈過當的情況,反映到評估指標上,就是模型在訓練集上的表現好,但是在測試集和新數據上的表現較差。欠擬合指的是模型在訓練和預測時表現都不好。用模型在數據上的偏差和方差指標來表示就是。欠擬合時候,偏差和方差都比較大,而過擬合時,偏差較小但方差較大。

7.

 

 

 

8.

 

 

 

 9.對於樹形結構為什么不需要歸一化?

決策樹的學習過程本質上是選擇合適的特征,分裂並構建樹節點的過程;而分裂節點的標准是由樹構建前后的信息增益,信息增益比以及基尼系數等指標決定的。這些指標與當前特征值的大小本身並無關系。

 10.什么是數據不平衡,如何解決?

數據不平衡主要指的是在有監督機器學習任務中,樣本標簽值的分布不均勻。這將使得模型更傾向於將結果預測為樣本標簽分布較多的值,從而使得少數樣本的預測性能下降。絕大多數常見的機器學習算法對於不平衡數據集都不能很好地工作。
解決方法:
1.  重新采樣訓練集
a.       欠采樣 –減少豐富類的大小來平衡數據集
b.       過采樣 – 增加稀有樣本,通過使用重復,自舉或合成少數類
2.  設計使用不平衡數據集的模型
a.       在代價函數中懲罰稀有類別的錯誤分類。

三、線性回歸與邏輯回歸

11.

 

 12.

 

 

 

 13.

 

 

 

 

14.

 

 15.

 四、朴素貝葉斯

1.寫出全概率公式&貝葉斯公式

 

2.朴素貝葉斯為什么“朴素naive”?

3.朴素貝葉斯有沒有超參數可以調?

 

4.朴素貝葉斯的工作流程是怎樣的? 

 

 

 

 

5.朴素貝葉斯對異常值敏不敏感?

 

 五、集成學習

1.

 

 2.

 

 3.

 

 4.

 

 5.

 

 

 

 六、隨機森林

1.

 

 2.

 

 3.

 

 4.

 

 5.

 

 七、GBDT

1.

 

 

 

2.

 

 3.

 

 

 

 4.

 

 5.

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM