标签【贝尔曼方程】

MDP中值函数的求解

MDP概述马尔科夫决策过程(Markov Decision Process)是强化学习(reinforcement learning)最基本的模型框架。它对序列化的决策过程做了很多限制。比如状 ...