上一篇中的NFL定理的簡化論述
定理表述: 無論學習算法\(\zeta_a\)多“聰明”以及\(\zeta_b\)多“笨拙”,他們的誤差期望值是相同的
定理假設:所有“問題”出現的機會相同,或者所有問題同等重要。以及我們希望學習的真實目標函數f是均勻分布的
定理的簡化論證
1.假設樣本空間\(\chi\)和假設空間H,令P(h|X,\(\zeta_a\))代表算法\(\zeta_a\)基於訓練數據X產生假設h的概率,再令f代表我們希望學習的真實目標函數。令\(E_{ote}\)為\(\zeta_a\)的訓練集外誤差產生概率的期望值(\(E_{ote}\)的下標ote指的是Off-training error)
2.令\(\Psi(.)\)表示一個特征函數,當(.)中的.為布爾值1時,\(\Psi(.)=1\)否則\(\Psi(.)=0\)
3.對假設空間H里的任何一個h來說,誤差期望\(E^1\)=\(\sum_{x\in\chi-X}\)P(x)\(\Psi(h(x) \ne f(x))\)P(\(h|X,\zeta_a\))。這是因為,當h(x) = f(x)時,這樣誤差出現的概率並不需要算作期望值的一部分;而當\(h(x)\ne f(x)\)時,誤差出現概率才需要記入。因此,我么可以得到對某一確定的真實的目標函數f而言,
\(E_{ote}(\zeta_a|X,f)=\sum_h\sum_{x\in\chi-X}P(x)\Psi(h(x)\ne f(x))P(h|X,\zeta_a)\)
那么,相應的,可以得到對所有真實的目標函數f而言,有如下結論:
\(\sum_{f}E_{ote}=\sum_{f}\sum_{h}\sum_{x\in\chi-X}P(x)\Psi(h(x)\ne f(x))P(h|X,\zeta_a)\)
這就是一般的學習算法\(\zeta_a\)對訓練集外的所有樣本以及所有真實目標函數f的誤差誤差概率期望
- Wolpert 和 Macready 證明了對所有的學習算法\(\zeta_i\),滿足定理假設情況下\(\sum_fE_{ote}\)值都是相等的。(因此這一定理也被稱為是“No Free Lunch Theorem”,即"沒有免費午餐"理論)。關於定理的嚴格證明,可以自學參考相關文獻。
定理在二分類下的特殊情形(也就是二分類下的說明)
若考慮的問題是二分類問題,則目標真實函數的值域被限定在Y={0,1}上,那么f即是一個\(\chi \to {0,1}\)的映射關系,若對可能的f按照均勻分布對誤差求和,則有
\(\sum_f E_{ote}(\zeta_a|X,f)=\sum_f\sum_h\sum_{x\in\chi-X}P(x)\Psi(h(x)\ne f(x))P(h|X,\zeta_a)\)
該式子的意義是,對每個真實目標函數f而言,每個假設h,對每個訓練集外的樣本x求誤差期望。因此也可以看作,對每個訓練集外的樣本x而言,它以P(x)的概率,對每個假設h,以P(h|X,\(\zeta_a\))的概率對所有真實目標函數f求誤差期望。因此得到等價的下式:
\(\sum_fE_{ote}(\zeta_a|X,f)=\sum_{x\in\chi-X}P(x)\sum_hP(h|X,\zeta_a)\sum\Psi(h(x)\ne f(x))\)
\(=\sum_{x\in\chi-X}P(x)\sum_hP(h|X,\zeta_a)\frac{1}{2}2^{|\chi|}\)(這一步有離散數學基礎的應該都能明白)
\(=\frac{1}{2}2^{|\chi|}\sum_{x\in\chi-X}P(x)\sum_hP(h|X,\zeta_a)\)(式子等價變形,將常數提到最前面)
\(=2^{|\chi|-1}\sum_{x\in\chi-X}P(x)*1\) (根據\(P(h|X,\zeta_a)\)的含義可以得到這一步的化簡,\(P(h,X,\zeta_a)\)指的是算法\(\zeta_a\)基於訓練集X產生假設h的概率,那么對所有假設h而言自然綜合就是1,這是概論了的公理化定義里包含的)
而上式二分類的特殊情形下的推導也正顯示出,總誤差和學習算法無關。(非二分類也可類似推導)
小結
NFL定理並沒有否定學習算法本身的好壞。NFL定理一個重要前提是:所有“問題”出現的機會相同,或者所有“問題”同等重要。但實際情況下並不是這樣。我們總是關注我們當下要解決的問題,這就不符合假設了。另外,在二分類特例下,我們假設f是均勻分布的,實際情況下也並非這樣。
因此,NFL定理的本質,不是想說明學習算法沒有好壞之分,而是想說明,脫離具體問題,空泛談論什么是好的學習算法本身是毫無意義的。因為那樣他們的誤差期望是相同的。要討論某個學習算法的相對優劣,必須針對具體的學習問題。在后面的機器學習過程中,這是不可忽略的一點。