雙層優化問題:統一GAN,演員-評論員與元學習方法(Bilevel Optimization Problem unifies GAN, Actor-Critic, and Meta-Learning Methods)


雙層優化問題:統一GAN,演員-評論員與元學習方法

(Bilevel Optimization Problem unifies GAN, Actor-Critic, and Meta-Learning Methods)

作者:凱魯嘎吉 - 博客園 http://www.cnblogs.com/kailugaji/

    之前寫過深度學習典型代表——生成對抗網絡,寫過強化學習典型代表——演員-評論員算法,寫過元學習典型代表——MAML算法,現在開始夢幻聯動,有沒有發現這三個算法有一個共同點,那就是相互博弈(two-player game),兩個優化目標交替執行,最終達到某個平衡(納什均衡),停止迭代。而這個問題在運籌學優化問題中有一個術語,叫做雙層優化問題(Bilevel Optimization Problem)。以上三個看似毫無關聯的算法最終都歸結為雙層優化問題,可以用一個公共的表示方法來將這三者統一起來。有了這個結論,這三個看似毫無關聯的算法以后優化求解就相當於求解雙層優化問題,只要雙層優化問題有解決方案,這三者的最優解就能獲得。可以使用Kriging逼近來求解雙層優化問題[1]。

1. Bilevel Optimization (BLO) Problem

2. Generative Adversarial Networks (GAN)

    生成對抗網絡(Generative Adversarial Networks, GANs)是通過對抗訓練的方式來使得生成網絡產生的樣本服從真實數據分布在生成對抗網絡中,有兩個網絡進行對抗訓練。一個是判別網絡,目標是盡量准確地判斷一個樣本是來自於真實數據還是由生成網絡產生;另一個是生成網絡,目標是盡量生成判別網絡無法區分來源的樣本,這兩個目標相反的網絡不斷地進行交替訓練當最后收斂時,如果判別網絡再也無法判斷出一個樣本的來源,那么也就等價於生成網絡可以生成符合真實數據分布的樣本。

3. Actor-Critic (AC) Methods

    演員-批評員方法(Actor-Critic, AC)是強化學習中一類長期存在的技術。而大多數強化學習算法要么專注於學習值函數,就像值迭代和時序差分學習一樣,要么直接學習策略,就像策略梯度方法一樣,AC方法可以同時學習——演員是策略,批評員是值函數。在某些AC方法中,批評員為策略梯度方法提供的方差基線低於從重復值估計的方差基線。在這種情況下,即使對值函數的錯誤估計也是有用的。因為無論使用何種基線,策略梯度都是無偏的。在其他AC方法中,根據近似值函數更新策略,在這種情況下,可能導致與GANs中類似的病理學。如果針對錯誤的值函數對策略進行優化,則可能會導致錯誤的策略,該策略永遠不會充分探索空間,從而阻止找到好的值函數,並導致退化解。

補充:生成對抗網絡 vs 演員-評論員

4. Meta-Learning

    元學習(Meta Learning)通常可以理解為學會學習(Learn to Learn);在多個學習事件中改進學習算法的過程。相比之下,傳統的機器學習改進了對一組數據樣本的模型預測。在基礎學習過程中,內部(或下層/基礎)學習算法解決了由數據集和目標定義的任務,如圖像分類。在元學習過程中,外部(或上層/元)算法更新內部學習算法,使其學習的模型改進外部目標。例如,這個目標可能是泛化性能或內部算法的學習速度。

補充(與上述關系不太大,僅供自己學習參考):從三個角度解釋元強化學習,即RNN, 雙層優化,以及推斷問題。

學習,元學習,強化學習,元強化學習四種方法總結:

圖源:CS 285 Meta-Learning 2020 http://rail.eecs.berkeley.edu/deeprlcourse-fa20/static/slides/lec-22.pdf

5. 參考文獻

[1] A. Sinha and V. Shaikh, "Solving Bilevel Optimization Problems Using Kriging Approximations," IEEE Transactions on Cybernetics, doi: 10.1109/TCYB.2021.3061551.

[2] David Pfau, Oriol Vinyals, “Connecting Generative Adversarial Networks and Actor-Critic Methods”, arXiv preprint, 2016.

[3] T. M. Hospedales, A. Antoniou, P. Micaelli and A. J. Storkey, "Meta-Learning in Neural Networks: A Survey," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM