1 有噪聲情況下的機器學習過程
由一個條件概率來產生數據的標簽y,相當於一個確定函數加上噪聲:
2 錯誤衡量方式
這里我們介紹pointwise的錯誤衡量方式。所謂point wise就是可以對於一個點計算它的錯誤。
常見的有兩種pointwise錯誤衡量方式:0/1錯誤和平方錯誤:
、
01錯誤用於分類,平方錯誤用於回歸。
我們之前推導VCbound使用的錯誤衡量方式就是01錯誤,首先計算出每個點的error,然后對所有點的error取平均:
下面這個例子說明了,選擇錯誤衡量方式很重要,不同的錯誤衡量會使算法作出不同的選擇:
加上錯誤衡量之后,我們的機器學習流程就變為如下:
還要提一下,之前我們推導VCbound和VC維使用的是二分類下的01錯誤衡量。事實上,對於其他的機器學習問題(多分類,回歸等)以及其他的錯誤衡量方式,我們仍然能推出相應的VCbound和VC維。
3 不同應用的錯誤衡量
錯誤衡量取決於不同的應用,例如同樣是二分類問題,超市和CIA的指紋識別會采用不同的錯誤衡量方式。
在實際中,我們有時候會用替代法,在算法上使用err-hat來代替真正的err作近似的錯誤衡量。做替代的原因可能是真正的err對於算法不太好求解,且替代后能達到與原來近似的效果。例如后面的課程中,我們會用平方錯誤或交叉熵錯誤來代替線性分類的01錯誤。
機器學習流程如下:
4 weighted classification
如前面CIA的問題,需要最小化的錯誤是:
如果使用pocket來求解這個問題(pocket在求解01錯誤時在理論上證明是有效的),需要作一定的轉化:
把-1數據作虛擬的復制1000倍,則就把這個問題轉化為新數據集上的01錯誤問題:
因此,為了達到“新數據集”的等效果,需要對原pocket修改兩個地方:
(1)隨機訪問-1數據的幾率要比原來大1000倍;
(2)對每個w計算錯誤時的使用Einw來代替原來的Ein。
fun time :解決不均衡樣本的方法:
(1)樣本采樣
(2)對錯誤衡量的權重作調整