博弈論揭示了深度學習的未來(譯自:Game Theory Reveals the Future of Deep Learning)


Game Theory Reveals the Future of Deep Learning

Carlos E. Perez

Deep Learning Patterns, Methodology and Strategy @ IntuitionMachine.com

譯自:https://medium.com/intuitionmachine/game-theory-maps-the-future-of-deep-learning-21e193b0e33a#.2vjbrl5di

若你一直follow他的文章,你會漸漸相信,對於那些資深的深度學習實踐者來說,在新架構出現的設計中出現博弈論的概念是顯而易見的。這種直覺來自於以下兩方面的原因。其一,深度學習系統最終會需要那些能夠處理有瑕疵的知識的場景。事實上,我們已經看到Deep Mind的AlphaGo僅使用了部分的知識,就從技巧性和策略性兩方面,在Go中戰勝了世界級的人類高手。其二,系統不會像現在這樣保持獨立,而是更傾向於涉及多個一致或具有競爭關系的深度學習系統的團體。我們已經看到的對抗網絡就是這種構造。對抗網絡包括兩個具有競爭關系的神經網絡,一個是生成網絡,一個判別網絡,前者試圖偽造圖像,后者試圖鑒別圖像真偽。這些系統的有趣特征是閉式損失是不需要的。事實上,一些系統甚至具備發現自身損失函數的驚人能力!對抗網絡的缺點是它們訓練困難。對抗學習包含了尋找兩人非合作游戲中的納什均衡(Nash Equilibrium)。Yann Lecun曾經在一次關於無監督學習的講座中稱,對抗網絡是近20年來機器學習中最酷的想法。

(一)David Balduzzi的Semantics, Representations and Grammars of Deep Learning

我們仍舊處於使用博弈論的初級階段,但是從更深層次來看,一些論文是具有博弈論基礎的。David Balduzzi有一個采用博弈論方法的深度學習框架。在他的paper“Semantics, Representations and Grammars of Deep Learning”,他寫道:

“一個潛在的批評是這種形式化太寬泛了。......然而,通過將簡單函數的組合視為深度學習體系結構的共有的必要特征,開拓有趣的非凸游戲的子類是可能的。組合特性通過分布式通訊協議與語法來形式化。”

博弈論以非常優雅的方式涵蓋其他方面混亂的主題。他用一個非常漂亮的圖來凸顯這種方法的實力,整本書都是用這種方法的角度來寫。

(二)David Silver以及Johannes Heinrich的Deep Reinforcement Learning from Self-play in imperfect-information games.

他寫道:“We have introduced NFSP, the first end-to-end deep reinforcement learning approach to learning approximate Nash Equilibria of imperfect-information games from self-play. Unlike previous game theoretic methods, NFSP is scalable without prior domain knowledge. Furthermore, NFSP is the first deep reinforcement learning method known to converge to approximate Nash Equilibria in self-play.”

(三)Jason Hartford的Deep Learning for Predicting Human Strategic Behavior

Jason Hartford等人使用深度學習來預測人類的行為。論文中提到:“The behavioral game theory literature has developed a wide range of models for predicting human behavior in strategic settings by incorporating cognitive biases and limitations derived from observations of play and insights from cognitive psychology...”

(四)作者的思考與總結

我們看到了三個不同的玩家采用三種不同的方式來看待博弈論在深度學習中所起作用。(1)作為一種描述和分析新的深度學習架構的方法;(2)作為一種構建學習策略的方法;(3)作為一種預測人類參與者行為的方法。最后一種應用會令你毛骨悚然。

數學家們提供給我們抽象的表示,來幫助我們理解復雜系統。然而,任何一種形式的抽象都有其局限性所在,這里就忽略細節了。我們可以擬定一些關於幾何、動力、邏輯的直覺來展示這些系統如何運行。但是,我們開始隱約發現這些系統所包含的分類器是從其他分類其構建的。它們本身就是自相似的系統,應當將它們視為一個互相交互的集合。進一步講,這些機器設計的目的在於預測未來。而預測需要不完備的、有瑕疵的數據。因此,我們需要數學框架來研究具有多種信息的多體交互行為。

傳統的機器學習觀點從優化的角度看問題,所有需要的就是能夠找到最優解的算法。然而,采用機器學習,我們想要構建的學習機器不能對數據過擬合,但卻能很好的處理沒有見過的數據。換句話說,我們想要這些機器能夠預測未知。這個要求稱為泛化,與傳統的優化問題是非常不同的。它與傳統的動力學問題也很不一樣,因為動力學問題要求所有的信息是已知的。這也是為什么深度學習中的好多工程都需要在優化問題的基礎上添加額外的約束。這些約束在一些文章中被稱為先驗,在優化問題中被稱為正則化。

正則化來自何處?我們如何選擇一個好的正則化方法?我們如何處理有瑕疵的信息?這些都是博弈論觀點的重要性所在。泛化有時也可以稱為結構風險最小化。換句話說,我們構建一種能夠處理泛化的機制,所采用的的方法策略就是類似於多體如何減輕風險。事實上,我們又回到了原點。博弈論被描述為:研究智能理智決策者之間如何競爭與合作的數學模型。理解機器學習最終歸結於研究智能體之間交互的數學。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM