在線學習和在線凸優化(online learning and online convex optimization)—基礎介紹1


開啟一個在線學習和在線凸優化框架專題學習:

1.首先介紹在線學習的相關概念

在線學習是在一系列連續的回合(rounds)中進行的;

在回合,學習機(learner)被給一個question:(一個向量,即為特征向量),為從instance domain:采樣得到的。學習機給出一個預測值:,然后得到正確的答案:從target domain:采樣得到,定義損失函數為。在大多數情況下,中,但是,允許學習者從更大的集合中選擇預測有時很方便,我們用D表示prediction domain。下圖展示了在線學習框架:

2在線學習考慮的兩個限制

第一個限制特別適合於在線分類的情況:

       我們假設所有的answer都是由一些target mapping生成的:取自固定集合,稱為假設類,由H表示,這是學習者已知的。由於這種對序列的限制,我們稱之為realizable case,學習者應該盡可能少犯錯誤,假設和問題的順序可以由對手來選擇。對於在線學習算法A,我們用表示A在一系列用標記的例子上可能犯的最大錯誤數。我們再次強調和問題的順序可以由對手來選擇。的上界稱為mistake bound,我們將研究如何設計最小的算法。

第二個限制是relaxation of the realizable assumption:

       我們不再假設所有答案都是由產生,但是我們要求學習機與來自H最好的固定預測器競爭。這被算法的regret所捕獲,regret度量了回顧過去,學習機有多“抱歉”沒有遵循一些假設的預測。形式上,算法相對於的regret當在一系列T實例上運行時定義為:

算法相對於假設類H的regret是:

  學習機的目標是相對於H具有盡可能低的regret。我們有時會對“low regret”算法感到滿意,我們認為與輪數T呈次線性增長,其意味着當T變為無窮大時,學習機的平均損失與H中最佳假設的平均損失之間的差異趨於零。

次線性增長:

3.在線學習算法的使用例子

(1)在線回歸

(2)專家建議預測

(3)在線排名(推薦系統)

未完,待續。。。。。。

下一節我們將從一個在線分類的例子說起。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM