其他分享
首页 > 其他分享> > Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition(VICE)

Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition(VICE)

作者:互联网

  1. 如何根据一张结果的图片进行对机械臂的控制?整个流程是怎样执行的?
  2. 二分类器是什么,有什么作用?
  3. 增强学习和逆增强学习的基础概念是什么?
  4. TRPO策略是什么?

相关背景介绍

  1. 迁移学习Transfer Learning。既然在真实环境不行,而仿真环境可以,那么是不是可以先在仿真环境中训练好,再把知识迁移到真实机器人上。Google Deepmind在这一块做了一些不错的工作,提出了ProgressiveNeural Net和PathNet,验证了迁移的可能性。而且很显然的,仿真环境越真实,迁移效果会越好。那么,搞一个非常仿真的环境就非常有意义了。这不,Nvidia 刚刚推出Isaac机器人模拟系统,确实是对Robot Learning的研究注入了一剂强心剂。
  2. Imitation Learning 模仿学习/Few Shot Learning 少样本学习/ Meta Learning 学会学习。这是另一条思路,那就是尽量减少数据的使用量。我们如果能够教机器人几次机器人就能学会技能那么问题也能解决。而这一块也就是OpenAI (依然是Sergey Levine)那帮人在如火如荼的研究的方向。而且特别是Meta Learning,直指通用人工智能的核心。如果能够在Meta Learning上取得突破,那么本身会是革命性的。

论文资料补充

在这里插入图片描述


论文翻译

1.Introduction

2.Related work

3. 准备工作

标签:Control,Definition,Inverse,分类器,奖励,事件,RL,学习,我们
来源: https://blog.csdn.net/weixin_43358537/article/details/89709000