首页 > 其他分享> > MEASURING THE RELIABILITY OF REINFORCEMENT LEARNING ALGORITHMS

MEASURING THE RELIABILITY OF REINFORCEMENT LEARNING ALGORITHMS

2021-08-23 08:31:46 作者：互联网

发表时间：2020（ICLR 2020）
文章要点：这篇文章设计了几个指标来度量RL算法的可靠性。这个可靠性主要是指训练过程稳不稳定啦，算法训练是不是可复现啦，训好的模型的performance是不是稳定呀balabala。整个设计指标还是很简单的。其实一共设计了两个指标（dispersion：the width of a distribution 和risk：the heaviness and extremity of the lower tail of a distribution），分别用在三个过程上。三个过程分别是during training两个和After learning一个。during training是across time和across runs。Across time就是说在一次训练过程中分析不同的step。Across runs就是分析重复训练多次。After learning是across rollouts on a fixed policy,这个就简单了，就是测试训好的策略。然后两个指标中，dispersion说的是看分布的宽度，我觉得其实就是看方差大不大，从而反映整个过程稳不稳定。这个指标他用的Inter-quartile range (IQR)，其实就是分位数的差，比如75%分位数-25%分位数这样。然后risk就是想看看极端情况常不常见，如果极端情况太常见，就说明这个算法有风险。这个指标他用的Conditional Value at Risk (CVaR)，这个指标定义如下

解释起来就是看看效果最差的那部分，平均能差到啥地步。然后就没了。文章还说了点注意细节，就不写了。
总结：这篇文章算是提了几个指标吧，但是感觉不是很实用，毕竟只有在训练完了才能根据数据分析，我都训练完了，那均值方差分位数这些不就能说明问题了吗，这几个指标的优势在哪呢。而且文章还说了，不同的环境就算是同一个算法也会得到不同的结果，也就是说这个算法的稳定性，可靠性之类的还是和具体问题有关的。这就说明我也不能在某些环境上训练并测试稳定性，然后就觉得这个算法可靠性高，然后直接迁移到其他问题上去。这么看来，好像这几个指标就有点鸡肋了。
疑问：无。

标签：MEASURING,可靠性,训练,指标,算法,RELIABILITY,ALGORITHMS,位数,across
来源： https://www.cnblogs.com/initial-h/p/15174366.html