強化學習:馬爾可夫決策過程(模型參數、動態特性、價值函數概念、回溯圖及貝爾曼期望方程推導)


馬爾可夫決策過程:MDP

一、MDP模型表示

首先引出馬爾可夫決策過程的幾個相關變量集合:A={at},S={st},R={rt+1},t=1,2,...T or ∞。A表示Action,S表示State,R表示Reward,這幾個均是靜態的隨機變量,可以是離散的,也可以是連續的。

①如果變量是離散的,且只有狀態變量隨時間變化,則可以用“狀態轉移矩陣”來表示這些隨機變量之間的關系(比如HMM),狀態轉移矩陣就可以表達系統的動態特性;

②在MDP中,時刻t和時刻t+1變量間的關系不能再用“狀態轉移矩陣”表述,一個是因為變量是連續的,需要用一個函數來表示這些隨機變量之間的關系(比如MDP),二是因為馬爾可夫決策過程中的隨機變量除了狀態變量,還有動作變量和回報變量,不只有“狀態轉移”,所以應該用“動態特性”進行隨機變量間的關系進行表述。

動態特性可以定量表述為函數P:動態特性函數是一個描述 t+1 和 t 前后兩個相鄰時刻隨機變量間動態關系條件概率 ,可以用符號表述為 P=p(s',r | s, a) ,定義為p(s',r | s, a)=Pr(St+1=s',Rt+1=r | St=s,At=a)。    【P:PROBABILITY ; R:RESTRICTED?】,其中P是函數空間。

如果要表達MDP的狀態轉移過程,可以將隨機變量R求積分得到MDP的狀態轉移函數:p(s'|s,a)=Σr∈R p(s',r|s,a)。

所以整個馬爾可夫決策過程的全部信息包含在狀態變量集合A,S,R和函數空間P中,每個時刻都有一個At,St,Rt,每兩個相鄰時刻之間都有一個pt。

二、決策

決策過程就是尋找最優策略的過程。

=>分解成“策略”、“最優”、“尋找”三個關鍵字。

首先是策略(policy):

策略形象的說法:在某時刻t,當St=s時,a的具體值:

抽象地說法:策略用於描述在某一時刻t,狀態st和動作at的對應關系,根據這個關系是確定的還是隨機的(有概率的隨機),可以分為確定性策略和隨機性策略。【策略是指是某一個時刻狀態s對應的a?還是從初始時刻開始到t的所有s對應的a的取值序列?如果時間從1~T,每個時刻的at有5個可能取值{a1,a2,a3,a4,a5},那么這個action序列就有5^T種可能。】

假定st固定取s(1)狀態值,對應的a如果取確定值a(2),那么就是確定性策略;對應的a如果是按照[0.1,0.8,0.1]的概率可能取a(1),a(2),a(3)的話,那么就是隨機性策略。

st s(1) s(2) s(3)
at a(2) a(1) a(3)

  標紅的就是一個確定性策略,可以表示為 a=Π(s)。上表中的三個策略可以分別表示為a(2)=Π(s(1)),a(1)=Π(s(2)),a(3)=Π(s(3))。所以可以說在t時刻采取策略Π1=a(2),在t+1時刻采取策略Π2=a(3)...【所以策略是對應某一時刻的概念?】

at,st s(1) s(2) s(3)
a(1) 0.1 0.7 0.1
a(2) 0.8 0.2 0.1
a(3) 0.1 0.1 0.8

  標紅的就是一個隨機性策略,隨機性策略可以表示為 Π (a | s)=Pr{At=a | St=s}。上表中的第一個策略可以表示為Π (a | s(1))=Pr{At=a(1) | St=s(1)}∪Pr{At=a(2) | St=s(1)}∪Pr{At=a(3) | St=s(1)}

然后是最優,要判斷最優肯定需要有個指標,在MDP中我們呢已經用到了A和S,那么這個指標就是肯定和Rt+1有關,由此引出了回報的概念,回報用Gt表示。由於回報Rt+1是t時刻的動作At之后得到的反饋,所以需要考慮動作At的后效性(At對t之后的所有時刻都有影響),引入了Rt+2,Rt+3,...,考慮對后續時刻的變量影響效果的不同,引入了折扣因子γ,γ∈[0,1],最終得到t時刻的回報

Gt=F(Rt+1,Rt+2,...RT)=Rt+1+γRt+22Rt+3+...+γT-1RT

這里需要明確Rt+1也是個隨機變量,比如Rt+1={r1,r2,r3}有三種取值,並且每種對應有一定的概率p={0.7  0.2  0.1}。那么可以看到由於at和Rt+1都是隨機變量,那么從t到t+1時刻經過決策at,獎勵Rt+1就對應有3x5個Gt,分別為{Gt1,Gt2,Gt3,...,Gt15}。由此我們可以看出,概率圖模型中的指標和機器學習中其他的指標不太一樣,需要考慮變量是個服從某個概率分布的隨機變量,所以這里的衡量t時刻決策好壞的定量指標是Gt對Π求期望,這就引出了價值函數的概念。

價值函數vΠ 定義為 EΠ Pr (Gt |St=s) ,那么該期望的具體公式是什么?加權平均的權是指的什么?概率?這就引出了貝爾曼期望方程,推導如下:

 

問題:

1.Π是St取值s的函數?與t無關?

 

參考資料:

1.https://www.bilibili.com/video/BV1RA411q7wt?from=search&seid=4107546504069376636,作者:shuhuai008.

2.https://www.bilibili.com/video/BV1RA411q7wt?p=5,作者:shuhuai008


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM