首页 > TAG信息列表 > distributional

Distributional RL with Quantile Regression论文翻译

毕业设计需要选择一篇外文论文进行翻译,翻译完成后正好分享到这里。因为这一篇论文比较难懂,也是比较重要的一篇论文,所以选择了这一篇。有些地方我也还不确定,翻译错误的地方欢迎指正~ 论文原文:https://arxiv.org/pdf/1710.10044.pdf 基于分位数回归的分布强化学习 Will Dabne

3. Distributional Reinforcement Learning with Quantile Regression

C51算法理论上用Wasserstein度量衡量两个累积分布函数间的距离证明了价值分布的可行性,但在实际算法中用KL散度对离散支持的概率进行拟合,不能作用于累积分布函数,不能保证Bellman更新收敛;且C51算法使用价值分布的若干个固定离散支持,通过调整它们的概率来构建价值分布。 而分位数回归

Statistics and Samples in Distributional Reinforcement Learning

摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!      arXiv:1902.08102v1 [stat.ML] 21 Feb 2019   Abstract   1. Introduction   2. Background   2.1. Bellman equations   2.2. Categorical and quantile distributional RL   CDRL.   QDRL.   3. The r

A Distributional Perspective on Reinforcement Learning

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!   arXiv:1707.06887v1 [cs.LG] 21 Jul 2017 In International Conference on Machine Learning (2017).   Abstract   在本文中,我们争论了价值分布的根本重要性:强化学习智能体获得的随机回报的分布。这与强化学习的通用

词向量

自然语言处理(NLP) NLP中最细粒度的是词语(word),词语组成句子,句子再组成段落、章节和文档。所以NLP的核心问题就是:如何理解word 如何理解word 由于目标是与计算机对接,其核心就是如何给计算机描述一个word,有以下两种描述方式: One-hot Representation Distributional Representation O