东莞建设工程交易网,专业做网站优化价格,短视频拍摄培训班,深圳设计收费标准Exploration by Random Network Distillation (2018)
随机网络蒸馏探索
0、问题
这篇文章提出的随机网络蒸馏方法与Curiosity-driven Exploration by Self-supervised Prediction中提出的好奇心机制的区别#xff1f;
猜想#xff1a;本文是基于随机网络蒸馏提出的intrin…Exploration by Random Network Distillation (2018)
随机网络蒸馏探索
0、问题
这篇文章提出的随机网络蒸馏方法与Curiosity-driven Exploration by Self-supervised Prediction中提出的好奇心机制的区别
猜想本文是基于随机网络蒸馏提出的intrinsic reward设计方式好奇心是基于前向动力学模型的误差设计的intrinsic reward。
1、Motivation
依然旨在为智能体的探索提供一种有效的探索奖励文章还提供一种灵活的结合intrinsic 和 extrinsic reward的方法。
论文使用随机网络蒸馏算法。
问题以往的论文探索奖励是基于智能体过去经验训练的网络的预测误差来量化新经验的新颖性但是最大化这种预测误差的智能体往往会被输入是随机的transition所吸引。举例来说就是如果预测问题是在给定当前观察和动作(前向动态)的情况下预测下一个观察结果那么对于一个transition(st,at,r,st1)输入的st是例如电视雪花一样的随机噪声那么预测出来的st1肯定是误差最大的因此智能体会陷入这种transition中。
于是本论文提出新的方案解决这种问题即在当前观测值的基础上预测一个固定的随机初始化神经网络的输出。
为了结合exploration bonus和extrinsic rewards文章引入了PPO算法的修改版本。
2、方法
Target网络一个固定且随机初始化的网络。
Predictor网络在智能体收集的数据上进行训练的网络。
Target网络对智能体的observation进行映射 f : O → R k f:\mathcal{O}\to\mathbb{R}^k f:O→Rk Predictor网络也对智能体的observation进行映射 f ^ : O → R k \hat{f}:\mathcal{O}\to\mathbb{R}^k f^:O→Rk 并且通过梯度下降来最小化期望MSE ∥ f ^ ( x ; θ ) − f ( x ) ∥ 2 \|\hat{f}(\mathrm{x};\theta)-f(\mathrm{x})\|^2 ∥f^(x;θ)−f(x)∥2 以此来更新Predictor网络的参数θ如果observation是Predictor网络没有训练过的那么预测出来的误差将比较高以此可以来作为智能体的探索奖励来推动智能体探索新颖的环境。
3、预测误差的来源以及其他模型的问题
训练数据量。对于Predictor很少看到的类似的例子的observation预测误差很高。随机性。由于目标函数是随机的因此预测误差很高。随机的Transition是前向动力学模型预测误差的来源。模型错误规范。因为缺少必要的信息或者模型类太有限无法适应目标函数的复杂性使得预测误差很高。学习动力。因为优化过程未能在模型类中找到最接近目标函数的预测器所以预测误差很高。
因素1是能用预测误差来作为exploration bonus的原因。因素2会导致基于forward dynamics model的预测误差为exploration bonus的智能体陷入局部熵源中例如“noisy-TV”。
有论文提出了改进方法来避免因素2和3带来的不良影响问题但是这些方法往往是计算昂贵的难以扩展。
而RND方法消除了因素2和3带来的不良影响因为Target网络是被固定下来的并且在Predictor网络的模型类内。
tips【伏羲讲堂】强化学习的探索方法简介 - 知乎 (zhihu.com)对此处有详细解释
4、奖励和Observation归一化
在不同的环境和不同的时间点奖励的规模可能会有很大的不同所以要对exploration bonus进行归一化处理。
对observation进行归一如果缺乏归一化处理嵌入的方差可能会非常低并且携带的关于输入的信息很少。
5、实验 在纯intrinsic reward的实验中发现non-episodic agent比episodic agent表现得更好探索到的房间更多。 针对状态价值结合方式 V V E V I VV_{E}V_{I} VVEVI 实验得出结论在使用两个状态价值函数即状态Extrinsic reward价值函数和状态intrinsic reward价值函数的情况下使用non-episodic的intrinsic reward结合episodic的extrinsic reward这种组合要优于都是episodic的intrinsic reward和extrinsic reward的组合。 而在episodic的设置中使用单个的状态价值函数来直接估计VE和VI的结合分别使用两个状态价值函数分别估计VE和VI效果差不多但是文章的实验还是基于两个状态价值函数这样做是为了将VE和VI与各自不同的特征结合起来。 实验研究extrinsic reward和intrinsic reward折扣因子的性能发现外部奖励的折扣因子越高性能越好而对于内在奖励它会损害探索。实验发现当extrinsic reward的折扣因子γE为0.999intrinsic reward的折扣因子γI为0.99时性能最好但是当γI增加到0.999时性能反而受到了损害。 实验表明在使用不同数量并行环境进行实验时通过调整批次大小并保持内在奖励递减速率恒定能够帮助策略模型有效地利用那些临时的、随着时间消失的内在奖励以促进对于新颖状态的探索和学习。 实验表明基于RNN的策略要更频繁地优于基于CNN的策略因为基于RNN的策略可以保持总结过去的状态。
6、结论
RND探索奖励足以处理局部探索即探索短期决策的结果如是否与特定对象互动或避免它。然而涉及长期协调决策的全局勘探超出了RND方法的范围。
文章指出未来仍然有需要继续研究的地方举了个例子在Montezuma’s Revenge游戏的第一关中智能体要想通关必须打开进入一个由两扇门锁着的房间这就需要两把钥匙。但是整个环境中一共有6扇门和4把钥匙这就意味着智能体需要保留4把钥匙中的2把以留到最后的两扇门中来打开但是打开前面4扇门又能够立即获得外部奖励这意味着智能体需要有足够的内在奖励来使智能体放弃打开前4扇门中的2扇以平衡由于早期使用密钥而失去的外部奖励。可是RND方法并不能很好的实现这种策略。
7、RNDPPO算法的伪代码