馬爾科夫決策過程(MDP)


1.馬爾科夫性

系統的下一個狀態僅與當前狀態有關,與以前的狀態無關。

定義:狀態st是馬爾科夫的,當且僅當P[st+1|st]=P[st+1|s1……st],當前狀態st其實是蘊含了所有相關的歷史信息,一旦當前信息已知,歷史信息會被拋棄。

2.馬爾科夫過程

    是一個二元組,包括狀態機和狀態轉移概率。從某個狀態出發到終止狀態的過程鏈。不存在動作和獎勵。

3.馬爾科夫決策過程

    由元組(S,A,P,R,γ),P為狀態轉移概率,包含動作;γ為折扣因子,用來計算累計回報。

表示的是在當前s ∈ S狀態下,經過a ∈ A作用后,會轉移到的狀態s’的概率分布情況。

4.幾個重要函數

(1)策略函數:策略是指狀態到動作的映射。策略的定義用條件概率分布給出。表示給定狀態s時,動作集上的分布。強化學習是要找到最優策略,最優指的是總回報最大。

(2)累計回報:給定了策略之后就能計算累計回報了。

 

(3)狀態值函數。由於策略π是隨機的,所以求得的累計回報也是隨機的。累計回報的期望是確定值,累計回報在狀態s處的期望定義為狀態值函數。

 

(4)狀態-行為值函數:狀態s下,選擇行為a的期望值函數。

(5)狀態值函數和狀態-行為值函數的貝爾曼方程。

①狀態值函數

 

表示當前狀態和下一狀態的遞歸關系。

②狀態-行為值函數

(6)狀態值函數和狀態-行為值函數之間的關系

給定當前狀態s和當前動作a,在未來遵循策略π,那么系統轉向下個狀態s'的概率是

 

π(a|s)表示狀態s對應不同的策略,P表示執行動作a后下一步的狀態概率,R表示狀態s下執行動作a得到的立即獎賞

具體分析步驟如下圖:

s→s’整個步驟分成兩部分,B和C兩部分。B部分為從s狀態選擇行為a的狀態值函數為

 

C部分給出了狀態值函數和狀態行為值函數的關系:

 

 

同理,用s’代替s,得到的狀態值函數為:

 

帶入上面的狀態行為值函數得到函數:

(7)策略π和初始狀態s是我們給定的,當前的動作a也是我們給定的,這是q狀態行為值函數和V狀態值函數的主要區別

(8)計算值函數是為了構建學習算法,從數據中得到最優策略,最優策略對應着最優的狀態值函數,所在策略中最大的值函數。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM