REINFORCEMENT

首页 > TAG信息列表 > REINFORCEMENT

Deep Reinforcement Learning for Autonomous Driving: A Survey

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ IEEE Trans. Intell. Transp. Syst. 23(6): 4909-4926 (2022) Abstract 　　随着深度表示学习的发展，强化学习(RL)领域已经成为一个强大的学习框架，现在能够在高维环境中学习复杂的策略。本综述总结了深度强化学习(DRL)

Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices

发表时间：2021（ICML 2021）文章要点：这篇文章想说，通常强化学习算法exploration和exploitation都是混在一起的，既探索环境的dynamics，同时也利用探索到的信息来提升策略。但是要想更好的更新策略，就需要好的探索来收集任务相关的信息；要想得到更好的探索策略，就需要基于当前学到的策略还指

Discovering symbolic policies with deep reinforcement learning

发表时间：2021（ICML 2021）文章要点：这篇文章想说神经网络的解释性太差，用简单的符号式子来表示策略具有更好的解释性，而且性能也不错。这里符号式子就是一个简单的函数。作者就提出了一个叫deep symbolic policy的算法来搜索symbolic policies。算法先有一个Policy Generator模块，来构

Reinforcement Learning With Modulated Spike Timing–Dependent Synaptic Plasticity

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ JOURNAL OF NEUROPHYSIOLOGY, (2007) Abstract

Distilling Neuron Spike with High Temperature in Reinforcement Learning Agents

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ ICCV 2021

Deep Reinforcement Learning with Double Q-learning

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ AAAI 2016 Abstract 　　众所周知，流行的Q学习算法会在某些条件下高估动作价值。以前不知道在实践中这种高估是否普遍，它们是否会损害性能，以及它们是否通常可以避免。在本文中，我们肯定地回答了所有这些问题。特别是，我

Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion

发表时间：2018 (NeurIPS 2018) 文章要点：这篇文章在model-based value expansion (MVE)的基础上提出了一个stochastic ensemble value expansion (STEVE)的model based算法，主要用来自适应选择不同horizon的rollout的权重，从而在target value和model error之间做trade off。具体的，就

ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES

发表时间：2019（ICLR 2019）文章要点：这篇文章主要从理论上分析了model based RL的lower bound，然后不断最大化这个lower bound，从而证明了理论上可以单调上升。这个框架还提出了一个optimism-in-face-of-uncertainty principle，最要用来鼓励探索，虽然最后没用貌似。作者还说最后用的l2

On the Expressivity of Neural Networks for Deep Reinforcement Learning

发表时间：2020（ICML 2020）文章要点：通常一个RL的问题，dynamics都比value function和policy function更复杂，这个时候去学model的话通常还不如直接去学value和policy。但是文中给出了反例，就是dynamics比value和policy更简单，这种情况下去学model然后用planning的方式去做决策，就会比model

在Matlab 上使用 Reinforcement learning

在Matlab 上使用 Reinforcement learning 环境搭建在Matlab中安装Deep Learning Toolbox后安装Reinforcement Learning Toolbox 什么是强化学习强化学习的最终目标是在未知的环境中训练一个agent，这个agent接受来自环境的observation与reward并对环境输出action，其中的reward用来

近两年内读过的书单

今天查阅资料，随手翻阅，发现近两年内也阅读了一些技术文章，良莠都有，也算是兼容并包了。做了简短整理，罗列如下。为自己加油，为自己喝彩。调度优化类Real-world_Ride-hailing_Vehicle_Repositioning_using_Deep_Reinforcement_Learning.2021.pdfScalable_Deep_Reinforcement_Learning_f

李宏毅机器学习组队学习打卡活动day01---机器学习介绍

写在前面报了一个Datawhale 组队学习活动，我参加的是第31期，打算好好学习以李宏毅老师的机器学习视频，虽然之前也看过一些，但是研究不深，这次想趁着这次活动系统学一下。参考视频:https://www.bilibili.com/video/av59538266 参考文档笔记：https://github.com/datawhalechina/leeml-n

MOReL: Model-Based Offline Reinforcement Learning

发表时间：2020（NeurIPS 2020）文章要点：这篇文章用model based方法去做offline RL。主要分为两步，第一步是用offline data学一个pessimistic MDP (P-MDP)，第二步就是用这个P-MDP去学一个near-optimal policy。P-MDP的性质保证了这个near-optimal policy是真实环境里的performance的lowe

Improving Generalization in Reinforcement Learning with Mixture Regularization

发表时间：2020（NeurIPS 2020）文章要点：这篇文章提出了一个叫mixreg的方法来提高agent泛化性。大致方法就是说用多个环境训练，并且对环境做插值，这样学到的策略就会更平滑，泛化性就更好。具体的，我有两个状态，通过加权插值的方式得到一个新的状态这里权重λ通过从贝塔分布采样得到对应

Explainable Reinforcement Learning Through a Causal Lens

发表时间：2019（AAAI 2020）文章要点：这篇文章通过构建一个图结构，来解释为啥agent要做/不做某个动作。具体来说就是先把某个问题给抽象成一个图结构，定义状态动作回报等关键信息的节点和边，然后在训练RL的时候也顺便用数据来训练这个图。训练完了之后，就根据图用深度优先搜索去找，做某个动

人工智能介绍

人工智能关系机器学习：一种实现人工智能的方法机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、

强化学习(Reinforcement Learning)

强化学习(Reinforcement Learning) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 通过阅读《神经网络与深度学习》及其他资料，了解强化学习(Reinforcement Learning)的基本知识，并介绍相关强化学习算法。 1. 强化学习背景与基本概念 1.1 强化学习概念图

Reinforcement Learning 101

https://towardsdatascience.com/reinforcement-learning-101-e24b50e1d292 Reinforcement Learning(RL) is one of the hottest research topics in the field of modern Artificial Intelligence and its popularity is only growing. Let’s look at 5 useful things one ne

A gentle introduction to Deep Reinforcement Learning

https://towardsdatascience.com/drl-01-a-gentle-introduction-to-deep-reinforcement-learning-405b79866bf4 Deep Reinforcement Learning (DRL), a very fast-moving field, is the combination of Reinforcement Learning and Deep Learning. It is also the most tre

Evaluating the Performance of Reinforcement Learning Algorithms

发表时间：2020（ICML 2020）文章要点：文章指出RL复现难的原因在于评价指标不一致。作者提出评估指标应该满足四点：1. Scientific,主要说你这个指标提供的信息要告诉别人针对某个具体的问题或假设，得出了什么结论，这个结论有没有考虑各种不确定性可能造成的问题。2. Usability，主要是说你

Difference Based Metrics for Deep Reinforcement Learning Algorithms

发表时间：2019（IEEE Access）文章要点：这篇文章想说之前那些衡量RL算法的指标（rawreward, avgreward,maximum rawreward等等）不好，只看得出来一个得分，反映不出来RL在训练过程中的问题。然后作者自己设计了几个指标来检测RL在训练中可能出现的问题（detect anomalies during the training pr

Benchmarking Batch Deep Reinforcement Learning Algorithms

发表时间：2019 文章要点：这篇文章主要是针对batch RL做了一个离散动作空间的benchmark，对比了DQN和一些batch RL算法的性能（DQN，REM，QR-DQN，KL-Control，BCQ）。并且把BCQ从连续动作空间改成适用离散动作空间，取得了SOTA的效果。作者得出的结论是，要想batch RL效果好，就要考虑外推误差（extrapola

Reinforcement Learning as One Big Sequence Modeling Problem

发表时间：2021 文章要点：这篇文章把RL看作序列建模问题（sequence modeling problem），直接用transformer来拟合整个序列（reats states, actions, and rewards as simply a stream of data，其实还拟合了reward-to-to return），拟合完了后就直接用这个transformer来做预测，中间还用了beam sea

Online and Offline Reinforcement Learning by Planning with a Learned Model

发表时间：2021 文章要点：文章接着muzero做的，当时muzero里面提出了一个MuZero Reanalyze（Reanalyse）的方式，这篇文章提出的MuZero Unplugged算法其实就是把MuZero Reanalyse用到offline RL里面。作者想说的就是这个方法不仅可以用在online RL上，在offline RL上同样表现很好，相当于一个算

李宏毅深度学习笔记P1、P2

李宏毅深度学习笔记李宏毅机器学习P1、P2 机器学习介绍人工智能起源于二十世纪五十年代，目标是希望机器可以跟人一样聪明。二十世纪八十年代，出现了机器学习的方法。机器学习，顾名思义，就是让机器具有学习的能力。人工智能是我们想要达成的目标，而机器学习是达成目标的手段，机