寫在前面:機器學習的目標是從訓練集中得到一個模型,使之能對測試集進行分類,這里,訓練集和測試集都是分布D的樣本。而我們會設定一個訓練誤差來表示測試集的擬合程度(訓練誤差),雖然訓練誤差具有一定的參考價值。但實際上,我們並不關心對訓練集合的預測有多么准確。我們更關心的是對於我們之前沒有見過的一個全新的測試集進行測試時,如果利用這個模型來判斷,會表現出怎么樣的性能,即一般誤差。因此,這也要求我們的模型需要具備一定的泛化能力。泛化能力弱,就會出現欠擬合與過擬合的情況。
偏差/方差(Bias/variance)
1、欠擬合與過擬合
解決的問題就是:建立一個模型,對何時出現欠擬合與過擬合進行說明。
eg:線性分類問題
Logistic回歸,簡化版模型:
a、定義一個訓練誤差(經驗風險)(training error,empirical risk , empirical error)
含義:被假設錯誤分類的樣本在訓練樣本中所占的比例=被假設錯誤分類的樣本數之和/m
引出經驗風險最小化(Empirical Risk Minization,ERM)
含義:取經驗誤差最小的參數
即證明ERM是一個合理的算法:能帶來更小的一般誤差
兩條引理:聯合界(Union bound)、一致收斂(Uniform Convergence)。
1、聯合界(Union bound)和 Hoeffding不等式
含義:Hoeffding不等式說的是估值的差異有一個上界,即給定一個假設,訓練誤差會以一個很大的概率接近於一般誤差
最終想證明的是,對於整個假設類而言,訓練誤差對於一般誤差是一個很好的估計,而不僅僅只是對某一個假設成立。
一致(當m很大時,訓練誤差接近與一般誤差)收斂
給定多大的m,才能是的一般誤差和訓練誤差近似呢?