1. 马尔科夫性
无后效性,下一个状态只和当前状态有关而与之前的状态无关,公式描述:P[St+1|St]=P[St+1|S1,...,St]。强化学习中的状态也服从马尔科夫性,因此才能在当前状态下执行动作并转移到下一个状态,而不需要考虑之前的状态。
2. 马尔科夫过程
马尔科夫过程是随机过程的一种,随机过程是对一连串随机变量(或事件)变迁或者说动态关系的描述,而马尔科夫过程就是满足马尔科夫性的随机过程,它由二元组M= (S,P)组成,且满足:S是有限状态集合, P是状态转移概率。整个状态与状态之间的转换过程即为马尔科夫过程。
3. 马尔科夫链
在某个起始状态下,按照状态转换概率得到的一条可能的状态序列即为一条马尔科夫链。当给定状态转移概率时,从某个状态出发存在多条马尔科夫链。强化学习中从某个状态到终态的一个回合就是一条马尔科夫链,蒙特卡洛算法也是通过采样多条到达终态的马尔科夫链来进行学习的。
4. 马尔科夫决策过程
在马尔科夫过程中,只有状态和状态转移概率,没有在状态情况下动作的选择,将动作(策略)考虑在内的马尔科夫过程称为马尔科夫决策过程。简单的说就是考虑了动作策略的马尔科夫过程,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。
因为强化学习是依靠环境给予的奖惩来学习的,因此对应的马尔科夫决策过程还包括奖惩值R,其可以由一个四元组构成M=(S, A, P, R)。强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略,策略就是状态到动作的映射,使得最终的累计回报最大。