【筆記】論文閱讀 | Learning to learn using gradient descent

本文轉載自查看原文 2020-01-07 23:29 681 元學習/ Few-Shot Learning/ 深度學習/ 梯度下降

論文信息：Hochreiter S, Younger A S, Conwell P R. Learning to learn using gradient descent[C]//International Conference on Artificial Neural Networks. Springer, Berlin, Heidelberg, 2001: 87-94.

博文作者：Veagau

編輯時間：2020年01月07日

本文是2011年ICANN的會議論文，第一作者是Sepp Hochreiter，LSTM的發明者之一。在論文中作者提出采用梯度下降（gradient descent）的策略進行元學習（Learning to learn），對比以前采用進化算法進行元學習的策略相比，這種元學習策略能夠適應擁有大量參數的大型模型，在后續的元學習經典模型算法中得到了廣泛的采用。

傳統的機器學習方法中的學習算法一般不會考慮以前的學習經驗，即使這些經驗能夠像人類進行推理學習一樣產生更好的表現，因此對於以往經驗的利用的研究催生出了知識遷移（Knowledge Transfer）這一概念，而元學習（meta-learning）就可以納入到知識遷移的范疇。廣義的來講，一個完整的元學習模型一般由兩個部分組成：Meta-Learner與Learner。其中Learner（學習者）就是一般意義上的具體的機器學習任務，可以是分類任務、識別任務等等，而Meta-Learner（元學習者）則充當着指導者的作用，負責尋找適合於具體學習任務的學習算法。元學習者內部分為兩個子系統：從屬（subordinate）系統和監督（supervisory）系統。從屬系統負責與Learner直接進行交互，向其提供合適的算法參數，而監督系統則需要忽略具體問題的細節，負責評價從屬系統產生算法的優劣性，對其進行監督。整個元學習系統的結構如下所示。

本文中作者采用循環神經網絡做為從屬系統，采用固定的傳統BPTT（隨時間后向傳播）學習算法作為監督系統。輸入數據對為\((x_j,y_{j-1})\)，其中\(x_j\) 為 \(j\) 時刻目標函數變量，\(y_{j-1}\) 為\(j-1\) 時刻目標函數對應的結果，之所以采用錯位的方式進行輸入，是為了讓附屬系統得到上一步算法的錯誤率，方便進行校正。由於算法的優化過程中涉及到序列模式的梯度更新（BPTT算法），所以為了防止梯度爆炸與梯度消失問題，本文中作者采用的循環神經網絡為LSTM。

以前的進化算法針對的是強化學習情境，而本文提出的元學習策略是在有監督學習情境下進行的，至於在無監督以及主動學習情境下的元學習策略應該是怎樣的，則值得進一步探究。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Learn to See in the Dark（論文閱讀筆記） Learning to See in the Dark論文閱讀筆記機器學習筆記：Gradient Descent CNN論文閱讀（一） LeNet：Gradient-based learning applied to document recognition 【筆記】論文閱讀 | Prototypical networks for few-shot learning [論文閱讀筆記] Adversarial Learning on Heterogeneous Information Networks 【筆記】論文閱讀 | Matching networks for one shot learning 【筆記】論文閱讀 | Optimization as a Model for Few-Shot Learning 論文閱讀筆記|NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE [論文閱讀筆記] node2vec Scalable Feature Learning for Networks