其他分享
首页 > 其他分享> > 【论文阅读】GRI: General Reinforced Imitation and its Application to Vision-Based Autonomous Driving

【论文阅读】GRI: General Reinforced Imitation and its Application to Vision-Based Autonomous Driving

作者:互联网

Column: December 30, 2021 11:01 PM
Last edited time: January 10, 2022 4:45 PM
Sensor/组织: 3 RGB; 曾经短暂的第一名
Status: 正在套娃
Summary: RL; carla leaderboard
Type: arXiv
Year: 2021

1. Motivation

DRL [7, 16, 17 22] 慢慢被证实 能处理复杂决策,但是因为DRL同时也具有极高的复杂度和低稳定性。而一般专家数据(模仿学习)能帮忙缓解一下这个问题。所以本文就是融合这两者之间 DRL和 IL 来进行训练。

Contribution

主要就是针对上面的问题而来的,总结一句就是融合了两者之间的关系,提出一个框架来训练,做了很多实验证明这样效果很好

Untitled

发现learning方向的文章 消融实验做的特别多 为了证明自己这一块加入的重要性

2. Method

整体框架,从下图可以基本看出整体的融合就是先训练其中一个然后反向传播后再联合进入第二阶段

  1. 第一阶段的对比都由输出的结果对比而不是动作进行loss判断
  2. 第二阶段由第一阶段结果add 然后进到DRL框架对输出动作和专家动作进行loss判断

Untitled

2.1 输入

首先是传感器配置位置 三个相机,以车为中心放置于:\(x=2.5m,z=1.2m \text{ and } y \in \{-0.8,0,0.8\}\) 也就是left center right分布,两边的相机有 70度的转角偏置,所有相机都是100度FOV。这样看来相机之间有共同部分 也较为合理 感觉更好激活一点

这一层输入应该说需要分阶段去考虑

  1. 首先整体的action数据根据不同的 \(p_{\text{demo}}=0.25\),然后还有 专家数据的reward=1,得到后的reward进行归一化后,再靠近这个专家reward也就是1
  2. 看相机输入的话,是232x352x3然后放到分类和分割器里 两层均参考于 [23]
  3. 关于动作进行了离散化 27个 steering values 和 4个油门或者刹车值,所以在RL那层动作离散空间就是 \(27\times4=108\) 个

2.2 框架

大框架已经在上面给出,小部分主要是关于reward设置和分类器、分割器的网络分别细节部分

首先reward设置引用至:CVPR2020: End-to-End Model-Free Reinforcement Learning for Urban Driving Using Implicit Affordances

两个部分的框图(建议放大看):

摘自原文中

摘自原文中

然后基本就没啥然后了 因为直接参考的Efficientnet-b1 [23]和Rainbow-IQN Ape-X [25] backbone,看来又是一层套娃之旅

Figure 2也就是说的 视觉子系统,Figure 3就是决策子系统。

2.3 输出

首先在训练时 各自层的输出都是基于参考的backbone来的,还没开始套娃。最后的model输出当然就直接是动作,其中包括steering vale, throttle or brake value

3. Conclusion

基本没啥好说的了,重复了一遍contribution:

摘自原文

摘自原文

整体emmm 大框架值得参考,小细节需要套娃看一下,特别是add操作没有解释清楚 也没代码 无法对着看吧。 不过 \(p_{\text{demo}}\) 是否也可以当做一个学习参数来进行,选取最好的?但是关于RL那块似懂非懂的 再瞅瞅

标签:输出,套娃,Driving,参考,General,相机,RL,Based,reward
来源: https://www.cnblogs.com/kin-zhang/p/15811714.html