首页 > 其他分享> > The NetHack Learning Environment

The NetHack Learning Environment

2021-08-01 01:33:41 作者：互联网

发表时间：2020（NeurIPS 2020）
文章要点：文章发布了一个复杂的强化学习的环境，可以用来研究exploration，planning，language-conditioned RL等等。环境是一个地宫类的游戏，相当于一层一层找门找地道，开地宫然后收集道具打怪兽，最终目标是找到护身符（Amulet of Yendor）并交给Astral Plane里对应的神（co-aligned deity in the Astral Plane）。这个地宫的特点是随机性特别强，每层关卡都是逐渐生成的，只有走到哪了才会出现哪（procedurally generated）。所以每次reset看到的地宫环境都是不一样的，所以像Go-explore这种记住动作轨迹然后回到之前的地方这种方式就行不通了。游戏的复杂度也很高，整个游戏有13个角色（thirteen roles），5个种族（five races），3个alignment（three moral alignments），两个性别（two genders）。里面的各种物品NPC上百个（over 450 items and 580 monster types），而且一个episode可能有成千上万个step，相当于比星际和DOTA的还要长一个量级。动作一共有98个，82个命令动作，16个移动动作。另一个特点是，游戏的界面是终端显示，所有的物品都是ASCII码显示，运行速度比Atari快14倍。所以作者构建了一个复杂但是对计算资源要求相对较低的环境（trikes a balance between complexity and speed）。此外，作者还设计了一些小任务来训练智能体学习基本技能，比如staircase，pet等等。作者在这些小任务上提供了两个baseline，一个IMPALA，一个RND。但是目前还没有任何算法可以完成整个任务。
总结：确实是极其复杂的一个游戏，光是看懂各种物品的属性就很麻烦，目前还不知道游戏咋玩的，各个符号的含义也太多了，还需要细看。然后确实很适合做exploration，但是这个的exploration也太难了。
疑问：无

标签：游戏,动作,一个,Environment,exploration,Learning,地宫,Astral,NetHack
来源： https://www.cnblogs.com/initial-h/p/15085815.html