花费 61 ms
MDP中值函数的求解

MDP概述   马尔科夫决策过程(Markov Decision Process)是强化学习(reinforcement learning)最基本的模型框架。它对序列化的决策过程做了很多限制。比如状 ...

Tue Jul 17 18:52:00 CST 2018 0 2513

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM