制作网站视频教程,快速网站开发课程,长沙市建设厅网站,html网站前台模板分类目录#xff1a;《深入理解强化学习》总目录 文章《深入理解强化学习——马尔可夫决策过程#xff1a;马尔可夫奖励过程-[计算马尔可夫奖励过程价值的蒙特卡洛方法]》介绍了计算马尔可夫奖励过程价值的蒙特卡洛方法#xff0c;同时我们也可以用动态规划的方法#xff0…分类目录《深入理解强化学习》总目录 文章《深入理解强化学习——马尔可夫决策过程马尔可夫奖励过程-[计算马尔可夫奖励过程价值的蒙特卡洛方法]》介绍了计算马尔可夫奖励过程价值的蒙特卡洛方法同时我们也可以用动态规划的方法一直迭代贝尔曼方程直到价值函数收敛我们就可以得到某个状态的价值。我们通过自举Bootstrapping的方法不停地迭代贝尔曼方程当最后更新的状态与我们上一个状态的区别并不大的时候更新就可以停止我们就可以输出最新的 V ′ ( s ) V(s) V′(s)作为它当前的状态的价值。这里就是把贝尔曼方程变成一个贝尔曼更新Bellman Update这样就可以得到状态的价值。
动态规划的方法基于后继状态价值的估计来更新现在状态价值的估计如下文所示算法中的第3行用 V ′ V V′来更新 V V V。根据其他估算值来更新估算值的思想我们称其为自举。 动态规划方法来计算价值 输入随机产生轨迹的个数 N N N (1) ∀ s ∈ S : V ′ ( s ) 0 , V ( s ) ∞ \forall s\in S: V(s)0, V(s)\infty ∀s∈S:V′(s)0,V(s)∞ (2) if ∣ ∣ V − V ′ ∣ ∣ ϵ \ \ ||V-V||\epsilon ∣∣V−V′∣∣ϵ (3) V V ′ \quad VV VV′ (4) ∀ s ∈ S : V ′ ( s ) R ( s ) γ ∑ s ′ ∈ S P ( s ′ ∣ s ) V ( s ′ ) \quad \forall s\in S: V(s)R(s)\gamma\sum_{s\in S}P(s | s)V(s) ∀s∈S:V′(s)R(s)γ∑s′∈SP(s′∣s)V(s′) (5) ∀ s ∈ S : \forall s\in S: ∀s∈S: 返回 V ( s ) V(s) V(s) 参考文献 [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022. [2] Richard S. Sutton, Andrew G. Barto. 强化学习第2版[M]. 电子工业出版社, 2019 [3] Maxim Lapan. 深度强化学习实践原书第2版[M]. 北京华章图文信息有限公司, 2021 [4] 王琦, 杨毅远, 江季. Easy RL强化学习教程 [M]. 人民邮电出版社, 2022