論文---overcoming catastrophic forgetting in neural networks理解


引用於:https://blog.csdn.net/u010195841/article/details/69257897

overcoming catastrophic forgetting in neural networks 

出處:2017 Jan 25 PNAS(proceedings of the national academy of sciences) 

作者:deepmind團隊 具體作者就不一一表述

deepmind團隊是深度學習應用方向最厲害的團隊,隸屬於google。

 部分翻譯:

實現通用智能需要智能代理能夠學習和記住許多不同的任務[1]。在現實世界中這很困難:任務的順序並不會顯式地標注出來,任務之間可能會不可預期地切換,單一任務可能在很長的一段時間內都不會復現。因而,智能代理必須具備持續學習的能力:也就是學習連貫的任務而不會忘記如何執行之前訓練過的任務的能力。
持續學習對人工神經網絡是一個特別大的挑戰,因為與當前任務(比如任務B)相關的知識被合並掉,關於先前任務(比如任務A)的知識會突然地丟失。這個現象術語叫災難性遺忘(catastrophic forgetting)[2-6],一般會發生在神經網絡在多個任務上進行按序訓練的時候,比如對任務A很重要的神經網絡的權重正好滿足任務B的目標時。然而近來機器學習的進步,尤其是深度神經網絡的進步對各個領域已經產生了廣泛的有利影響(如文獻7和8),但連續學習領域的研究卻停滯不前。當前的方法主要是通過確保來自各個任務的數據在訓練中都可以同時獲得。通過在學習過程中對來自多任務的數據進行交叉操作,其實遺忘並不會發生,因為神經網絡的權重能夠對所有任務上的表現進行聯合優化,但這個方法通常指的是多任務學習范式-深度學習技術,已經被成功地應用在訓練單一智能體玩多種Atari游戲[9,10]。如果任務按序呈現的話,只能在數據存儲在事件記憶系統並在訓練的過程中對網絡進行回放時,才能采用這種多任務學習技術。這種方法(通常也叫系統級鞏固[4, 5])面對學習大量任務時並不實用的,因為按照我們的設定,它應該需要與任務數量成比例的存儲數量。相關算法的確實成為通用智能開發的關鍵障礙。
與人工神經網絡形式鮮明對比的是人類和其他動物似乎能夠以連續的方式學習[11]。最近的證據提示哺乳動物的大腦可能會通過大腦皮層回路來保護先前獲得的知識,從而避免災難性遺忘[11-14]。當小鼠需要一個新技能的時候,一定比例的突觸就會增強,表現為單一神經元的樹突棘數量的增加[13]。至關重要的是,即使進行了后續的其他任務的學習,這些增加了的樹突棘能夠得到保持,以便幾個月后相關能力仍然得到保留。當這些樹突棘被選擇性“擦除”后,相關的技能就會被遺忘[11,12]。這表明對這些增強的突觸的保護對於任務能力的保留至關重要。這些實驗發現與諸如瀑布模型[15, 16]這樣的神經生物學模型提示我們大腦皮層中的持續學習依賴於任務相關突觸的鞏固,知識能夠長久地編碼得益於讓一部分突觸降低可塑性從而在相當長的時間范圍內變得穩定。
本次工作將展示任務相關突觸鞏固為人工智能的持續學習問題提供了獨特的解決方案。我們為人工智能神經網絡開發了一種類似於突觸鞏固的算法,稱之為可塑權重鞏固(elastic weight consolidation,EWC)。這個算法會針對那些對特定任務特別重要的特定權重降低學習率。也會展示EWC如何應用在監督學習和強化學習問題中,在不會遺忘舊任務的情況下,按次序地訓練多個任務,並與之前的深度學習技術進行對比。
 
 
 

如今深度神經網絡有個很難以解決的問題,就是持續學習(continual learning)。人腦的神經元數量是有限的,故而在人腦的整理學習過程中,不會出現應對一個新的問題就重新規划問題,而是對已有的神經元組合進行修改,使之能適應於持續學習。

這篇文章就是根據生物學上的突破(synaptic consolidation突觸整合),將已有的深度神經網絡進行修改,增加參數,使之能更好的適用於人工神經網絡的持續學習。

Abstract

The ability to learn tasks in a sequential fashion is crucial to the development of artificial intelligence. Neural networks are not, in general, capable of this and it has been widely thought that catastrophic forgetting is an inevitable feature of connectionist models. We show that it is possible to overcome this limitation and train networks that can maintain expertise on tasks which they have not experienced for a long time. Our approach remembers old tasks by selectively slowing down learning on the weights important for those tasks. We demonstrate our approach is scalable and effective by solving a set of classification tasks based on the MNIST hand written digit dataset and by learning several Atari 2600 games sequentially

從摘要中我們可以得到幾點信息:

(1)順序學習能力是人工智能的發展的攔路虎;

(2)災難性遺忘是網絡結構的必然特征(catastrophic forgetting);

(3)順序學習的定義,即根據任務A訓練網絡模型后,再根據任務B訓練網絡模型,此時對任務A進行測試,還可以維持其重要內容;

(4)它們對於災難性遺忘提出了一個改進型的算法;

(5)改進型算法的測試集有兩個,MINST和Atari。

 

Introduction

Introduction太長了,就不粘具體的內容,只給出具體有用的信息:

(1)為什么人工神經網絡的連續學習會出現問題?

由於當前的人工神經網絡對順序任務的學習方式是先訓練任務A,然后再訓練任務B,任務A的參數與任務B的參數基本無關,使得當任務B訓練完成后,該網絡無法給出任務A的結果。

(2)什么叫做災難消失?

在網絡順序訓練多重任務時,對先前任務的重要權重無法保留,稱之為災難性消失。

算法設計環節

這篇文章的算法設計叫做Elastic weight consolidation(EWC),重要的部分(算法設計)在我讀論文的時候,要求給出完整翻譯(有部分是意譯)。

In brains, synaptic consolidation enables continual learning by reducing the plasticity of synapses that are vital to previously learned tasks. We implement an algorithm that performs a similar operation in artificial neural networks by constraining important parameters to stay close to their old values. In this section we explain why we expect to find a solution to a new task in the neighborhood of an older one, how we implement the constraint, and finally how we determine which parameters are important.

在大腦中,通過減少突觸的可塑性,整合突觸能夠持續學習,這對先前的學習任務極為重要。我們在人工神經網絡中執行一個算法,具有同樣的性能,通過限制重要參數以便於保留以前的參數值。這部分中,我們解釋了三個問題:為什么我們期望在以前的學習任務周圍找出一個新任務的解決方案;怎么實施限制;最后怎么確定哪些參數是重要的。

In this work, we demonstrate that task-specific synaptic consolidation offers a novel solution to the continual learning problem for artificial intelligence. We develop an algorithm analogous to synaptic consolidation for artificial neural networks,which we refer to as elastic weight consolidation (EWC for short). This algorithm slows down learning on certain weights based on how important they are to previously seen tasks. We show how EWC can be used in supervised learning and reinforcement learning problems to train several tasks sequentially without forgetting older ones, in marked contrast to previous deep-learning techniques.

在我們的工作中,我們表明特定任務突觸整合方案提供了一種新奇的人工智能持續學習的解決方案。我們為人工神經網絡提出類似於突觸整合的算法,命名為elastic weight  consolidation(EWC)。這個算法降低重要權重的學習率,重要權重的決定權是以前任務中的重要性。我們展示EWC怎樣被使用於監督學習和強化學習中,對比實驗是深度學習技術。

圖1:彈性權重整合(EWC)確保訓練任務B時同時記得任務A。訓練軌跡闡明概要的參數空間,參數范圍被很好的展示,任務A(灰色)、任務B(奶白)。經過第一次訓練后,參數集合是。如果我們訓練任務B單獨使用梯度下降(藍色箭頭),當我們在最小化任務B的損失函數時,會失去任務A訓練后的結果。另外,如果我們訓練過程中相同的系數(綠色箭頭)限制每一個權重,這樣限制就過於嚴重,我們只能記住任務A的訓練結果而無法訓練任務B。相反的,EWC找到任務B的解決方案,不會對任務A的參數進行重大改變(紅色箭頭)通過明確的計算任務A的權重如何重要。

 

算法總結:

(1)此算法的設計原理采用映射的效果,將任務A的部分重要參數空間仍然復用,其它參數映射到任務B的參數空間中,這種映射的采用方案為條件概率,使用先驗概率和后驗概率,將條件概率公式進行修改。具體的見下面的圖片(公式實在不好實現,所以進行手寫圖片的方式)

僅僅保存備用,如引用請標明原作者:https://blog.csdn.net/u010195841/article/details/69257897


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM