1. 馬爾科夫性
無后效性,下一個狀態只和當前狀態有關而與之前的狀態無關,公式描述:P[St+1|St]=P[St+1|S1,...,St]。強化學習中的狀態也服從馬爾科夫性,因此才能在當前狀態下執行動作並轉移到下一個狀態,而不需要考慮之前的狀態。
2. 馬爾科夫過程
馬爾科夫過程是隨機過程的一種,隨機過程是對一連串隨機變量(或事件)變遷或者說動態關系的描述,而馬爾科夫過程就是滿足馬爾科夫性的隨機過程,它由二元組M= (S,P)組成,且滿足:S是有限狀態集合, P是狀態轉移概率。整個狀態與狀態之間的轉換過程即為馬爾科夫過程。
3. 馬爾科夫鏈
在某個起始狀態下,按照狀態轉換概率得到的一條可能的狀態序列即為一條馬爾科夫鏈。當給定狀態轉移概率時,從某個狀態出發存在多條馬爾科夫鏈。強化學習中從某個狀態到終態的一個回合就是一條馬爾科夫鏈,蒙特卡洛算法也是通過采樣多條到達終態的馬爾科夫鏈來進行學習的。
4. 馬爾科夫決策過程
在馬爾科夫過程中,只有狀態和狀態轉移概率,沒有在狀態情況下動作的選擇,將動作(策略)考慮在內的馬爾科夫過程稱為馬爾科夫決策過程。簡單的說就是考慮了動作策略的馬爾科夫過程,即系統下個狀態不僅和當前的狀態有關,也和當前采取的動作有關。
因為強化學習是依靠環境給予的獎懲來學習的,因此對應的馬爾科夫決策過程還包括獎懲值R,其可以由一個四元組構成M=(S, A, P, R)。強化學習的目標是給定一個馬爾科夫決策過程,尋找最優策略,策略就是狀態到動作的映射,使得最終的累計回報最大。