男人爆笑图

谷歌新智能体Dreamer将亮相NeurIPS 2019,数据效率比前身PlaNet快8个小时

  • 日期:2019-12-13 17:24:58
  • 来源:互联网
  • 编辑:小狐
  • 阅读人数:203

谷歌新智能体Dreamer将亮相NeurIPS 2019,数据效率比前身PlaNet快8个小时(图1)

事实证明,强化学习—一种使用奖励来推动软件策略朝着目标前进的训练技术—特别适合学习一个总结agent经验的世界模型,并通过扩展来促进新行为的学习。

雷锋网,近日,来自Google、Alphabet子公司DeepMind和多伦多大学的研究人员发表了一篇名为《梦想控制:通过潜意识的学习行为》的新研究,他们了一个增强型学习智能体Dreamer,通过内化一个世界模型,并通过通过潜在的“想象力”来提前计划选择行动。

他们说,Dreamer不仅适用于任何学习目标,而且在数据效率、计算时间以及最终性能方面都超过了现有的方法。

在它的整个生命周期中,无论是交错还是并行,Dreamer都会学习一个latent dynamics model(潜在动力学模型)以预测动作和观察结果的回报。在这种情况下,“latent dynamics model”是指从图像输入中学习并执行计划以收集新经验的模型。

谷歌新智能体Dreamer将亮相NeurIPS 2019,数据效率比前身PlaNet快8个小时(图2)

上图:Dreamer完成一个摆动钟摆的任务。中间显示45步预测

Dreamer使用了一个多部分的latent dynamics model,这个模型的结构有些复杂。“表示”位对观察和动作进行编码,而“过渡”位则在没有看到会引起观察的情况下预见状态。第三个组件(奖励组件)根据给定的模型状态来投影奖励,而行为模型将实施学习的策略并旨在预测可解决想象的环境的行为。最终,价值模型评估行动模型实现的预期想象奖励,而观察模型反馈信号。

谷歌新智能体Dreamer将亮相NeurIPS 2019,数据效率比前身PlaNet快8个小时(图3)

上图:梦想家在迷宫中导航。中间显示45步预测。

雷锋网了解到,在一系列实验中,研究人员了Dreamer在DeepMind Control Suite中的20个视觉控制任务上的效果,DeepMind Control Suite是一种用于评估机器学习驱动的代理的仿真软件。

他们首先使用Nvidia V100图形芯片和10个处理器内核来训练它,每次培训运行一次。他们说,控制套件上每106个环境步骤花费了9个小时。相比之下,Google的Dreamer前身PlaNet花了17个小时才达到了类似的性能。

谷歌新智能体Dreamer将亮相NeurIPS 2019,数据效率比前身PlaNet快8个小时(图4)

上图:梦想家在玩Atari游戏(拳击)中间显示45步预测。

研究人员报告说,Dreamer有效地利用了学习的世界模型来从少量经验中进行概括,并且它的成功证明了,通过潜在的想象力进行的学习行为可以胜过顶级方法。他们还说,Dreamer的价值模型即使在短期计划中也表现良好,在20个任务中的16个(有4个打成平手)上表现优于其他模型。

研究人员写道:“未来,关于表征学习的研究可能会将潜在的想象力扩展到视觉复杂性更高的环境中,”研究人员计划在本周温哥华的NeurIPS 2019上展示他们的工作。Dreamer项目的代码可在 GitHub 上公开获得。 雷锋网

本文相关词条概念解析:

模型

模型是所研究的系统、过程、事物或概念的一种表达形式,也可指根据实验、图样放大或缩小而制作的样品,模型一般用于展览或实验或铸造机器零件等用的模子。对于现实世界的事物、现象、过程或系统的简化描述,或其部分属性的模仿。在一般的意义下是指模仿实物或设计中的构造物的形状制成的雏型,其大小可以分为缩小型、实物型和放大型。

网友评论

提交评论

网站申明:本站图片仅为设计美化,与文章无关。如认为影响您的权益,请与我们联系。