【cs229-Lecture16】馬爾可夫決策過程


之前講了監督學習和無監督學習,今天主要講“強化學習”。

  • 馬爾科夫決策過程;Markov Decision Process(MDP)
  • 價值函數;value function
  • 值迭代;value iteration(算法,解決MDP)
  • 政策迭代;policy iteration(算法,解決MDP)

什么是強化學習?

強化學習(reinforcement learning,又稱再勵學習,評價學習)是一種重要的機器學習方法,在智能控制機器人及分析預測等領域有許多應用。但在傳統的機器學習分類中沒有提到過強化學習,而在連接主義學習中,把學習算法分為三種類型,即非監督學習(unsupervised learning)、監督學習(supervised leaning)和強化學習。

3bf33a87e950352a842e0d055343fbf2b2118b6b

  • 根據Agent當前狀態,選擇了動作a,這時與環境發生了交互,Agent觀測到下一個狀態,並收到了一定的獎賞r(有好有壞)。

  • 如此反復的與環境進行交互,在一定條件下,Agent會學習到一個最優/次優的策略。

 


馬爾科夫決策過程

馬爾可夫決策過程是基於馬爾可夫過程理論的隨機動態系統的最優決策過程。馬爾可夫決策過程是序貫決策的主要研究領域。它是馬爾可夫過程與確定性的動態規划相結合的產物,故又稱馬爾可夫型隨機動態規划,屬於運籌學中數學規划的一個分支。

(以下轉自:http://blog.csdn.net/dark_scope/article/details/8252969

馬爾科夫決策是一個五元組,,用一個機器人走地圖的例子來說明它們各自的作用

S:狀態集:就是所有可能出現的狀態,在機器人走地圖的例子中就是所有機器人可能出現的位置

A:action,也就是所有可能的行動。機器人走地圖的例子假設機器人只能朝四個方向走,那么A就是{N,S,E,W}表示四個方向

P:就是機器人在S狀態時采取a行動的概率

γ:叫做discount factor,是一個0到1之間的數,這個數決定了動作先后對於結果的影響度,在棋盤上的例子來說就是影響了這一步

棋對於最結果的影響有多大可能說起來比較模糊,通過后面的說明可能會講得比較清楚。

R:是一個reward function,也就是可能是一個,也可能是,對應來說就是地圖上的權值

有了這樣一個決策過程,那么機器人在地圖上活動的過程也可以表現為如下的形式:

也就是從初始位置開始,選擇一個action到達另一個狀態,直到到達終狀態,因此我們這樣來定義這個過程的價值:

可以看出越早的決定對價值影響越大,其后則依次因為γ而衰減

其實可以看出,給出一個MDP之后,因為各個元都是定值,所以存在一個最優的策略(ploicy),策略即是對於每個狀態給出一個action,最優

策略就是在這樣的策略下從任意一個初始狀態能夠以最大的價值到達終狀態。策略用π表示。用

表示在策略π下以s為初始狀態所能取得的價值,而通過Bellman equation,上式又等於:

注意這是一個遞歸的過程,在知道s的價值函數之前必去知道所有的s'的價值函數。(價值函數指的是Vπ())

而我們定義最優的策略為π*,最優的價值函數為V*,可以發現這兩個東西互為因果,都能互相轉化。


價值迭代(Value iteration )

   這個過程其實比較簡單,因為我們知道R的值,所以通過不斷更新V,最后V就是converge到V*,再通過V*就可以得到最優策略π*,通

   過V*就可以得到最優策略π*其實就是看所有action中哪個action最后的value值最大即可,此處是通過bellman equation,可以通過解bellman equation得到

   所有的V的值,這里有一個動歸的方法,注意馬爾科夫決策過程中的P其實是指客觀存在的概率,比如機器人轉彎可能沒法精確到一個方向,而不是指在s狀態

   機器人選擇a操作   的概率,剛才沒說清楚

   在此說明,也就是說:

   是一個客觀的統計量。

image


策略迭代(policy iteration)

策略迭代法(policy iteration method),動態規划中求最優策略的基本方法之一。它借助於動態規划基本方程,交替使用“求值計算”和“策略改進”兩個步驟,求出逐次改進的、最終達到或收斂於最優策略的策略序列。

   這次就是通過每次最優化π來使π converge到π*,V到V*。但因為每次都要計算π的value值,所以這種算法並不常用

image


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM