强化学习-MDP(马尔可夫决策过程)算法原理
1. 前言 前面的强化学习基础知识介绍了强化学习中的一些基本元素和整体概念。今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程)。 2. MDP定义 MDP是当前强化学习理论推导的基石,通过 ...
1. 前言 前面的强化学习基础知识介绍了强化学习中的一些基本元素和整体概念。今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程)。 2. MDP定义 MDP是当前强化学习理论推导的基石,通过 ...