緊接上文,我們講述在線分類問題
令,
為0-1損失,我們做出如下的簡化假設:
學習者的目標是相對於hypotheses set: H具有low regret,其中H中的每個函數是從到{0,1}的映射,並且regret被定義為:
我們首先證明這是一個不可能完成的任務——如果,沒有算法可以獲得次線性regret bound。考慮
,
是一個總是返0的函數,
是一個總是返1的函數。通過簡單地等待學習者的預測然后提供相反的答案作為真實答案,攻擊者可以使任何在線算法的錯誤數等於T。相反,對於任何真實答案序列,令b為
中的大多數標簽,則
的錯誤數最多為T/2。因此,任何在線算法的regret可能至少是T-T/2 =T/2,這不是T的次線性。
為了回避Cover’s impossibility result,我們進一步限制對抗環境的能力。下面展示兩種方法。
第一種方法是增加額外的一個假設:
接下來,我們描述和分析在線學習算法,假設有限假設類(Finite Hypothesis Class)和輸入序列的可實現性(realizability)。最自然的學習規則是使用(在任何在線回合)任何與過去所有例子一致的假設。
Consistent 算法維持一個與一致的所有假設的集合
。此集合通常稱為version space。然后它從中選擇任何假設並根據該假設進行預測。
Consistent 算法的mistake bound:
Halving算法:
Having算法的mistake bound:
證明:
第二種方法是隨機化(Randomization):
如果學習機輸出(
),則它在t回合上的期望損失是:
對predictions domain做改變,此時predictions domain不等於target domain:
根據這個假設,可以推導出如下定理中所述的low regret算法:
我們已經提出了兩種不同的方法來回避Cover’s impossibility result: realizability 和 randomization。這兩種方法似乎有些不同。然而,有一個深層的基本概念將它們連接起來。事實上,我們將證明這兩種方法都可以解釋為凸化技術。凸性是推導在線學習算法的中心主題,我們在下一節中進行研究。
未完,待續。。。。。。
下一節分析在線凸優化技術。