[FML]學習筆記三 Rademacher Complexity


該章節證明用到的不等式:Hoeffding不等式,McDiarmid不等式以及jensen不等式

Hoeffding's:

clip_image001

McDiarmid不等式是Hoeffding不等式的一個推廣,用f(S)代替了和函數Sm,用ci代替了(bi-ai):

clip_image002

Jensen’s inequality:

If x is a random variable and φ is a convex function,then:

      φ(E(x))<=E(φ(x))

在前面PAC Learning Model的推廣中,只證明了對於有限H的情況下PAC的有效性,那么對於H的大小是無限的情況,是否能夠 進行有效的學習呢?在前一章中的矩陣的例子就是一個無限H大小的例子,並且已經被證明了是PAC-learnable的。本章中我們將要為無限大小的假設集H的情況推導general learning guarentees。

既然H的大小是無限的,那么我們就不能用H的大小來表示H的complexity,在這里引入Rademacher Complexity的概念來標記H的complexity。

g是一個損失函數將(x,y)映射至L(h(x),y),G是g的集合。

Rademacher Complexity通過測量一個假設集H能夠fit隨機噪點的程度來表達H的complexity:

clip_image004

        注意,б的取值是離散的{-1,1}

我們知道向量的內積可以表示兩個向量的關系程度,empirical Rademacher complexity測量的就是函數集G在S上與random noise的關系程度。我們知道complexity越大的G就會有越多的gs,那么就能夠更好的適應random noise。

clip_image005

下面基於Rademacher complexity給出第一個generalization bound:

clip_image006

clip_image007

clip_image008

將(3.13)得到的結論以及(3.5)帶回(3.7),並且使用δ/2替代δ,就得到了(3.3)的推論。

clip_image009

clip_image010

這里有一點不太懂個,為什么changing one point in S changes Rs(G) by at most 1/m?????????

下面在具有0-1 loss function的binary classification上使用Redemacher Complexity:

clip_image011

也就是說,損失函數集G的經驗Redemacher Complexity是假設集的經驗Remacher Complexity的一半。

兩邊取期望可以得到對於任何一個樣本集大小m>=1的binary classification,有:

clip_image012

證明很簡單:

clip_image013

可以利用lemma 3.1對二項分類問題使用公式(3.3)(3.4)得到generalization bound:

clip_image014

注意這里的R(h)是損失函數不是Redemacher。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM