在模型評估過程中,過擬合和欠擬合具體指什么現象?
過擬合是指模型對於訓練數據擬合呈過當的情況,反映到評估指標上,就是模型在訓練集上的表現好,但是在測試集和新數據上的表現較差。
欠擬合指的是模型在訓練和預測時表現都不好。用模型在數據上的偏差和方差指標來表示就是。欠擬合時候,偏差和方差都比較大,而過擬合時,偏差較小但方差較大。
降低過擬合和欠擬合的方法 |
L1和L2正則先驗分別服從什么分布?
L1 的分布容易使得 目標函數只與有限的 L1限制函數在“棱角”上產生交集。
這里的pw 是寫成x---w
-----------------------------------
什么是數據不平衡,如何解決?
數據不平衡主要指的是在有監督機器學習任務中,樣本標簽值的分布不均勻。這將使得模型更傾向於將結果預測為樣本標簽分布較多的值,從而使得少數樣本的預測性能下降。絕大多數常見的機器學習算法對於不平衡數據集都不能很好地工作。
解決方法:
1. 重新采樣訓練集
a. 欠采樣 –減少豐富類的大小來平衡數據集
b. 過采樣 – 增加稀有樣本,通過使用重復,自舉或合成少數類
2. 設計使用不平衡數據集的模型
a. 在代價函數中懲罰稀有類別的錯誤分類。
DuY:embedding 是什么啊,能通俗的講一下嗎?”
- - - - - - - - - - - - - - -
比如 老虎 這一個動物用一個 vector (0, 1, 0, 0, 0) 表示,經過embedding 之后它可以表示為 (0.23, 0.12) 表示。而這種表示方法是通過訓練數據訓練出來的。