蒙特卡洛采样、重要性采样
有一个概率密度函数p(x),求解随机变量x基于此概率下某个函数f(x)的期望,表示如下: 如果概率分布形式比较简单的话,我们可以采用解析的方法: 如果f(x)过于复杂的话,直接求解就非常复 ...
有一个概率密度函数p(x),求解随机变量x基于此概率下某个函数f(x)的期望,表示如下: 如果概率分布形式比较简单的话,我们可以采用解析的方法: 如果f(x)过于复杂的话,直接求解就非常复 ...
一、问题引入 回顾上篇强化学习 2 —— 用动态规划求解 MDP我们使用策略迭代和价值迭代来求解MDP问题 1、策略迭代过程: 1、评估价值 (Evaluate) \[v_{i ...