最自然的學習規則是使用任何在過去回合中損失最小的向量。 這與Consistent算法的精神相同,它在在線凸優化中通常被稱為Follow-The-Leader,最小化累積損失。
對於任何t:
我們談到了能最小化累計損失不能說明此算法在在線學習場景是有效,我們需要探究算法的 Regret bound:
采用歸納法證明:
例子1:Online Quadratic Optimization
例子2:Online Linear Optimization
未完,待續。。。。。。
下一節將講述FTRL算法