開啟一個在線學習和在線凸優化框架專題學習:
1.首先介紹在線學習的相關概念
在線學習是在一系列連續的回合(rounds)中進行的;
在回合
,學習機(learner)被給一個question:
(一個向量,即為特征向量),
為從instance domain:
采樣得到的。學習機給出一個預測值:
,然后得到正確的答案:
,
從target domain:
采樣得到,定義損失函數為
。在大多數情況下,
在
中,但是,允許學習者從更大的集合中選擇預測有時很方便,我們用D表示prediction domain。下圖展示了在線學習框架:

2在線學習考慮的兩個限制
第一個限制特別適合於在線分類的情況:
我們假設所有的answer都是由一些target mapping生成的:
,
取自固定集合,稱為假設類,由H表示,這是學習者已知的。由於這種對序列的限制,我們稱之為realizable case,學習者應該盡可能少犯錯誤,假設
和問題的順序可以由對手來選擇。對於在線學習算法A,我們用
表示A在一系列用
標記的例子上可能犯的最大錯誤數。我們再次強調
和問題的順序可以由對手來選擇。
的上界稱為mistake bound,我們將研究如何設計
最小的算法。
第二個限制是relaxation of the realizable assumption:
我們不再假設所有答案都是由
產生,但是我們要求學習機與來自H最好的固定預測器競爭。這被算法的regret所捕獲,regret度量了回顧過去,學習機有多“抱歉”沒有遵循一些假設
的預測。形式上,算法相對於
的regret當在一系列T實例上運行時定義為:

算法相對於假設類H的regret是:

學習機的目標是相對於H具有盡可能低的regret。我們有時會對“low regret”算法感到滿意,我們認為與輪數T呈次線性增長,其意味着當T變為無窮大時,學習機的平均損失與H中最佳假設的平均損失之間的差異趨於零。
次線性增長:
3.在線學習算法的使用例子
(1)在線回歸

(2)專家建議預測

(3)在線排名(推薦系統)


未完,待續。。。。。。
下一節我們將從一個在線分類的例子說起。
