花费 8 ms
Q-learning

强化学习基本介绍 强化学习是一种不同于监督学习和无监督学习的在线学习技术,基本模型图一所示。它把学习看作是一个“试探一评价”的过程,首先学习系统称为智能体感知环境状态,采取某一个动作作用于环境,环境 ...

Tue Jan 02 06:33:00 CST 2018 0 8939
随机过程——马尔可夫决策过程

  马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的最优决策过程。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确定性的动态规划相结合的产物,故又称马尔可夫型随机动态规划,属于运筹 ...

Mon Nov 05 19:08:00 CST 2018 0 867

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM