什么是经验回放Experience replay

阅读: 评论:0

什么是经验回放Experience replay

什么是经验回放Experience replay

Experience replay 经验回放
根据论文2017 EMNLP中“Learning how to Active Learn: A Deep Reinforcement Learning Approach”利用强化学习来解决主动学习问题。

“we use an experience replay memory M to store each transition (s, a, r, s') as it is used in an episode, after which we sample a mini-batch of transitions from the memory and then minimize the ”

使用Deep Q-learning方法,从每一episode中得到的奖励来迭代更新Q(s,a). DQN算法中,(具体方法后续更出)继将每一个episode中使用的(s,a,r,a')存储于M中,再从M中抽取mini-batch转换来最小化损失函数。

基于价值的深度强化学习不仅仅是把 Q-Learning 中的价值函数用深度神经网络近似,还做了其他改进。

这个算法就是著名的 DQN 算法,由 DeepMind 在 2013 年在 NIPS 提出。DQN 算法的主要做法是 Experience Replay,其将系统探索环境得到的数据储存起来,然后随机采样样本更新深度神经网络的参数。

Experience Replay 的动机是:1)深度神经网络作为有监督学习模型,要求数据满足独立同分布,2)但 Q Learning 算法得到的样本前后是有关系的。为了打破数据之间的关联性,Experience Replay 方法通过存储-采样的方法将这个关联性打破了。

主要作用是克服经验数据的相关性(correlated data)和非平稳分布(n

本文发布于:2024-02-04 10:40:34,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170705308354846.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:经验   Experience   replay
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23