增強學習————K-搖臂賭博機


 

探索與利用
增強學習任務的最終獎賞是在多步動作之后才能觀察到,於是我們先考慮最簡單的情形:最大化單步獎賞,即僅考慮一步操作。不過,就算這樣,強化學習仍與監督學習有顯著不同,因為機器要通過嘗試來發現各個動作產生的結果,而沒有訓練數據告訴機器應當做什么動作。簡而言之:缺少標記;

想最大化單步獎賞要考慮兩個方面:一是需要知道每個動作帶來的獎賞,而是要執行獎賞最大的動作。

實際上,單步強化學習任務對應了一個理論模型,即“K-搖臂賭博機”。什么是搖臂賭博機,就是,如圖所示,賭徒投入一個硬幣后,選擇一個搖桿,每個搖桿有一定的概率吐出硬幣,這個概率賭徒並不知道。賭徒的目標就是通過找到一個策略來使自己在等量成本下,收益最大。

那么,假設賭徒有100個硬幣做成本,那他可以有兩個選擇,一是“僅探索”,就是說,把100個硬幣均勻的投入到5個搖臂中,來探索每個搖臂吐出硬幣的累計金額,從而得出哪個搖桿最優;一個是“僅利用”,就是說,把100個硬幣投入到目前平均獎賞最優的那個搖桿中(多個最優則隨機選一個)。顯然,這兩種都有缺陷,想獲得最優的平均獎賞,就是要找到二者的平衡。
於是引入兩種算法,貪心法和Softmax算法。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM