1.馬爾科夫性
系統的下一個狀態僅與當前狀態有關,與以前的狀態無關。
定義:狀態st是馬爾科夫的,當且僅當P[st+1|st]=P[st+1|s1……st],當前狀態st其實是蘊含了所有相關的歷史信息,一旦當前信息已知,歷史信息會被拋棄。
2.馬爾科夫過程
是一個二元組,包括狀態機和狀態轉移概率。從某個狀態出發到終止狀態的過程鏈。不存在動作和獎勵。
3.馬爾科夫決策過程
由元組(S,A,P,R,γ),P為狀態轉移概率,包含動作;γ為折扣因子,用來計算累計回報。
表示的是在當前s ∈ S狀態下,經過a ∈ A作用后,會轉移到的狀態s’的概率分布情況。
4.幾個重要函數
(1)策略函數:策略是指狀態到動作的映射。策略的定義用條件概率分布給出。表示給定狀態s時,動作集上的分布。強化學習是要找到最優策略,最優指的是總回報最大。
(2)累計回報:給定了策略之后就能計算累計回報了。
(3)狀態值函數。由於策略π是隨機的,所以求得的累計回報也是隨機的。累計回報的期望是確定值,累計回報在狀態s處的期望定義為狀態值函數。
(4)狀態-行為值函數:狀態s下,選擇行為a的期望值函數。
(5)狀態值函數和狀態-行為值函數的貝爾曼方程。
①狀態值函數
表示當前狀態和下一狀態的遞歸關系。
②狀態-行為值函數
(6)狀態值函數和狀態-行為值函數之間的關系
給定當前狀態s和當前動作a,在未來遵循策略π,那么系統轉向下個狀態s'的概率是
π(a|s)表示狀態s對應不同的策略,P表示執行動作a后下一步的狀態概率,R表示狀態s下執行動作a得到的立即獎賞
具體分析步驟如下圖:
s→s’整個步驟分成兩部分,B和C兩部分。B部分為從s狀態選擇行為a的狀態值函數為
C部分給出了狀態值函數和狀態行為值函數的關系:
同理,用s’代替s,得到的狀態值函數為:
帶入上面的狀態行為值函數得到函數:
(7)策略π和初始狀態s是我們給定的,當前的動作a也是我們給定的,這是q狀態行為值函數和V狀態值函數的主要區別
(8)計算值函數是為了構建學習算法,從數據中得到最優策略,最優策略對應着最優的狀態值函數,所在策略中最大的值函數。