- 論文信息:Hochreiter S, Younger A S, Conwell P R. Learning to learn using gradient descent[C]//International Conference on Artificial Neural Networks. Springer, Berlin, Heidelberg, 2001: 87-94.
- 博文作者:Veagau
- 編輯時間:2020年01月07日
本文是2011年ICANN的會議論文,第一作者是Sepp Hochreiter,LSTM的發明者之一。在論文中作者提出采用梯度下降(gradient descent)的策略進行元學習(Learning to learn),對比以前采用進化算法進行元學習的策略相比,這種元學習策略能夠適應擁有大量參數的大型模型,在后續的元學習經典模型算法中得到了廣泛的采用。
傳統的機器學習方法中的學習算法一般不會考慮以前的學習經驗,即使這些經驗能夠像人類進行推理學習一樣產生更好的表現,因此對於以往經驗的利用的研究催生出了知識遷移(Knowledge Transfer)這一概念,而元學習(meta-learning)就可以納入到知識遷移的范疇。廣義的來講,一個完整的元學習模型一般由兩個部分組成:Meta-Learner與Learner。其中Learner(學習者)就是一般意義上的具體的機器學習任務,可以是分類任務、識別任務等等,而Meta-Learner(元學習者)則充當着指導者的作用,負責尋找適合於具體學習任務的學習算法。元學習者內部分為兩個子系統:從屬(subordinate)系統和監督(supervisory)系統。從屬系統負責與Learner直接進行交互,向其提供合適的算法參數,而監督系統則需要忽略具體問題的細節,負責評價從屬系統產生算法的優劣性,對其進行監督。整個元學習系統的結構如下所示。
本文中作者采用循環神經網絡做為從屬系統,采用固定的傳統BPTT(隨時間后向傳播)學習算法作為監督系統。輸入數據對為\((x_j,y_{j-1})\),其中\(x_j\) 為 \(j\) 時刻目標函數變量,\(y_{j-1}\) 為\(j-1\) 時刻目標函數對應的結果,之所以采用錯位的方式進行輸入,是為了讓附屬系統得到上一步算法的錯誤率,方便進行校正。由於算法的優化過程中涉及到序列模式的梯度更新(BPTT算法),所以為了防止梯度爆炸與梯度消失問題,本文中作者采用的循環神經網絡為LSTM。
以前的進化算法針對的是強化學習情境,而本文提出的元學習策略是在有監督學習情境下進行的,至於在無監督以及主動學習情境下的元學習策略應該是怎樣的,則值得進一步探究。