在線學習和在線凸優化(online learning and online convex optimization)—在線分類問題2


緊接上文,我們講述在線分類問題

 令為0-1損失,我們做出如下的簡化假設:

學習者的目標是相對於hypotheses set: H具有low regret,其中H中的每個函數是從到{0,1}的映射,並且regret被定義為:

       我們首先證明這是一個不可能完成的任務——如果,沒有算法可以獲得次線性regret bound。考慮是一個總是返0的函數,是一個總是返1的函數。通過簡單地等待學習者的預測然后提供相反的答案作為真實答案,攻擊者可以使任何在線算法的錯誤數等於T。相反,對於任何真實答案序列,令b為中的大多數標簽,則的錯誤數最多為T/2。因此,任何在線算法的regret可能至少是T-T/2 =T/2,這不是T的次線性。

       為了回避Cover’s impossibility result,我們進一步限制對抗環境的能力。下面展示兩種方法。

  第一種方法是增加額外的一個假設:

  

  接下來,我們描述和分析在線學習算法,假設有限假設類(Finite Hypothesis Class)和輸入序列的可實現性(realizability)。最自然的學習規則是使用(在任何在線回合)任何與過去所有例子一致的假設。

    

  Consistent 算法維持一個與一致的所有假設的集合。此集合通常稱為version space。然后它從中選擇任何假設並根據該假設進行預測。

  Consistent 算法的mistake bound:

  

  Halving算法:

  

  Having算法的mistake bound:

  

  證明:

  第二種方法是隨機化(Randomization):  

  如果學習機輸出),則它在t回合上的期望損失是:

  對predictions domain做改變,此時predictions domain不等於target domain:

  

  

  根據這個假設,可以推導出如下定理中所述的low regret算法:

  

  

  我們已經提出了兩種不同的方法來回避Cover’s impossibility result: realizability 和 randomization。這兩種方法似乎有些不同。然而,有一個深層的基本概念將它們連接起來。事實上,我們將證明這兩種方法都可以解釋為凸化技術。凸性是推導在線學習算法的中心主題,我們在下一節中進行研究。

  未完,待續。。。。。。

  下一節分析在線凸優化技術。

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM