近期,Google Deep Mind團隊提出了一個機器學習模型,並起了一個特別高大上的名字:神經網絡圖靈機,我為大家翻譯了這篇文章,翻譯得不是特別好,有些語句沒讀明白,歡迎大家批評指正
原論文出處:http://arxiv.org/pdf/1410.5401v1.pdf。
版權所有,禁止轉載。
神經網絡圖靈機
Alex Graves gravesa@google.com
Greg Wayne gregwayne@google.com
Ivo Danihelka danihelka@google.com
Google DeepMind, London, UK
摘要
本文通過引入一個使用注意力程序進行交互的外部存儲器(external memory)來增強神經網絡的能力。新系統可以與圖靈機或者馮·諾依曼體系相類比,但每個組成部分都是可微的,可以使用梯度下降進行高效訓練。初步的結果顯示神經網絡圖靈機能夠從輸入和輸出樣本中推理出(infer)簡單的算法,如復制、排序和回憶。
1. 簡介
計算機程序在執行計算任務的過程中(Von Neumann, 1945)使用了三個基本機制:初等運算(如算術操作),邏輯控制流(分支循環)和可讀寫的存儲器。雖然在建模復雜數據方面取得了廣泛的成功,現代機器學習理論卻普遍忽略了對控制流和存儲器的使用。
由於其對帶有時間屬性的數據的進行學習和復雜轉換的能力,遞歸神經網絡脫穎而出。進一步,RNN又被證明是圖靈完全等價的 (Siegelmann and Sontag, 1995),因而只要合理建模,它就可以模擬任何計算過程。但是理論上可行不代表實踐中容易實現。為此,我們增強了標准遞歸網絡的能力從而simplify the solution of algorithmic tasks。這個增強方案主要是依賴一個較大的、可尋址的存儲器,而相似地,圖靈機是使用一個無窮存儲帶來增強有窮狀態機,因而,我們稱這種新設備為”神經網絡圖靈機”。不同於圖靈機的是,NTM是一個可微的計算機,能夠使用梯度下降進行訓練,對於學習程序來說是一個很實用的機制。
在人類識別能力中,the process that shares the most similarity to algorithmic operation is known as “working memory.”。在神經生理學中,工作記憶的運行機制尚不清楚,根據字面意思,可以理解為是信息的短期存儲和基於規則的操作集合(Baddeley et al., 2009)。在計算機術語中,這些規則就是程序,存儲的信息構成了這些程序的參數。既然NTM被設計用來對“快速創建的變量”應用近似的規則,所以它模仿了一個工作記憶系統。快速創建的變量(Rapidly-created variables) (Hadley, 2009) 是可以快速綁定到存儲槽的數據,就像傳統計算機中數字3和4被放在寄存器然后相加得到7(Minsky, 1967)。由於NTM架構使用了注意過程來對存儲器進行選擇性讀寫,所以NTM使用了另一個相似的工作記憶模型。與大多數工作記憶模型相比,我們的架構能夠學習使用他的工作記憶,而不需要為符號數據引入一系列固定的程序。
本文首先對在心理學、語言學和神經科學以及人工智能和神經網絡等領域與工作記憶相關的研究做一簡單回顧。然后描述我們的主要工作,一個存儲架構和注意力控制器,並且我們相信這個控制器可以滿足簡單程序的歸納(induction)和執行(execution)這類任務的性能要求。為了測試這個結構,我們設計了一些問題,並給出了詳細的測試結果。最后總結這個架構的有點。
2. 基礎研究
更多和更佳閱讀體驗,前往主站