馬爾科夫決策過程（MDP）

本文轉載自查看原文 2019-08-02 15:10 498 強化學習

1.馬爾科夫性

系統的下一個狀態僅與當前狀態有關，與以前的狀態無關。

定義：狀態s_t是馬爾科夫的，當且僅當P[s_t+1|s_t]=P[s_t+1|s₁……s_t],當前狀態s_t其實是蘊含了所有相關的歷史信息，一旦當前信息已知，歷史信息會被拋棄。

2.馬爾科夫過程

是一個二元組，包括狀態機和狀態轉移概率。從某個狀態出發到終止狀態的過程鏈。不存在動作和獎勵。

3.馬爾科夫決策過程

由元組（S，A，P，R，γ），P為狀態轉移概率，包含動作；γ為折扣因子，用來計算累計回報。

表示的是在當前s ∈ S狀態下，經過a ∈ A作用后，會轉移到的狀態s’的概率分布情況。

4.幾個重要函數

（1）策略函數：策略是指狀態到動作的映射。策略的定義用條件概率分布給出。表示給定狀態s時，動作集上的分布。強化學習是要找到最優策略，最優指的是總回報最大。

（2）累計回報：給定了策略之后就能計算累計回報了。

（3）狀態值函數。由於策略π是隨機的，所以求得的累計回報也是隨機的。累計回報的期望是確定值，累計回報在狀態s處的期望定義為狀態值函數。

（4）狀態-行為值函數：狀態s下，選擇行為a的期望值函數。

（5）狀態值函數和狀態-行為值函數的貝爾曼方程。

①狀態值函數

表示當前狀態和下一狀態的遞歸關系。

②狀態-行為值函數

（6）狀態值函數和狀態-行為值函數之間的關系

給定當前狀態s和當前動作a，在未來遵循策略π，那么系統轉向下個狀態s'的概率是

π(a|s)表示狀態s對應不同的策略，P表示執行動作a后下一步的狀態概率，R表示狀態s下執行動作a得到的立即獎賞

具體分析步驟如下圖：

s→s’整個步驟分成兩部分，B和C兩部分。B部分為從s狀態選擇行為a的狀態值函數為

C部分給出了狀態值函數和狀態行為值函數的關系：

同理，用s’代替s，得到的狀態值函數為：

帶入上面的狀態行為值函數得到函數：

（7）策略π和初始狀態s是我們給定的，當前的動作a也是我們給定的，這是q狀態行為值函數和V狀態值函數的主要區別

（8）計算值函數是為了構建學習算法，從數據中得到最優策略，最優策略對應着最優的狀態值函數，所在策略中最大的值函數。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 強化學習（一）—— 基本概念及馬爾科夫決策過程（MDP）強化學習 1 --- 馬爾科夫決策過程詳解（MDP）強化學習（二）馬爾科夫決策過程(MDP) 馬爾可夫決策過程MDP 馬爾科夫過程和馬爾可夫決策過程的區別【強化學習】MOVE37-Introduction（導論）/馬爾科夫鏈/馬爾科夫決策過程強化學習簡介及馬爾科夫決策過程強化學習讀書筆記 - 03 - 有限馬爾科夫決策過程增強學習（二）----- 馬爾可夫決策過程MDP 什么是馬爾可夫決策過程