首页 > TAG信息列表 > exploration

awesome-exploration-rl 前沿追踪——如何高效地探索未知的奥秘

引言 探索和利用的平衡 (The banlance between exploration and exploitation) 是强化学习中最核心的问题之一。 一般来说,利用指的是利用当前已知知识做出最优动作,探索指的是探索未知的环境以获取新的知识,从而潜在地可能得到回报更大的动作。探索与利用如何平衡的问题即是

Deep Exploration via Bootstrapped DQN

发表时间:2016(NIPS 2016) 文章要点:这篇文章提出了Bootstrapped DQN算法来做深度探索。作者认为,当前的探索策略比如ϵ-greedy,并没有进行深度探索(temporally-extended (or deep) exploration)。Deep exploration指的是一个探索策略进行多步的探索,而不是像ϵ-greedy那种每步都是一个随

Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices

发表时间:2021(ICML 2021) 文章要点:这篇文章想说,通常强化学习算法exploration和exploitation都是混在一起的,既探索环境的dynamics,同时也利用探索到的信息来提升策略。但是要想更好的更新策略,就需要好的探索来收集任务相关的信息;要想得到更好的探索策略,就需要基于当前学到的策略还指

EXPLORATION BY RANDOM NETWORK DISTILLATION

发表时间:2018(ICLR 2019) 文章要点:文章提出了一个random network distillation (RND)的算法,通过比较一个预测网络和一个随机初始化网络的越策误差作为exploration bonus来增加探索。主要思路是说,如果agent去过某个状态了,那么预测误差就会更小,反之就会大。 具体的,先有一个随机网络f,

A Framework for Reinforcement Learning and Planning

发表时间:2020 文章要点:这篇文章是篇综述,主要从RL和planning的异同入手,总结了对解决MDP这类问题的公共因素,放到一起称作framework for reinforcement learning and planning (FRAP)的框架。首先文章提出,RL和planning的主要区别就是环境模型是已知的还是未知的,通常RL用在环境model

Model-based Reinforcement Learning: A Survey

发表时间:2021 文章要点:一篇综述,主要从dynamics model learning,planning-learning integration和implicit model-based RL三个方面介绍。dynamics model learning包括stochasticity, uncertainty, partial observability, non-stationarity, state abstraction, and temporal abst

题解 CF852D Exploration plan

【题意翻译】 给定一个\(V\) 个点\(E\) 条边的带权无向图,在图上有\(N\) 个人,第\(i\) 个人位于点\(x_ i\) ,一个人通过一条边需要花费这条边的边权的时间。 现在每个人可以自由地走。求最短多少时间后满足结束后有人的节点数\(\geq K\) \(N,V \leq 500\) 【题目分析】 首先发现V很

The NetHack Learning Environment

发表时间:2020(NeurIPS 2020) 文章要点:文章发布了一个复杂的强化学习的环境,可以用来研究exploration,planning,language-conditioned RL等等。环境是一个地宫类的游戏,相当于一层一层找门找地道,开地宫然后收集道具打怪兽,最终目标是找到护身符(Amulet of Yendor)并交给Astral Plane里对应

技术分享 | 为什么学习rrt_exploration实现自主建图容易掉坑?

在无人车领域当中,SLAM和导航两个部分一直是研究人员关注的重点,无人车作为移动机器人,这两个功能也十分重要,无人车到一个未知的环境中,人为控制无人车进行建图,建立好地图后,再使用导航,这是目前在无人车应用场景中十分常见的场景,但在实际应用过程中,还是存在局限性,很多应用场景下需

探究Java中基本类型和部分包装类在声明变量时不赋值的情况下java给他们的默认赋值

探究Java中基本类型和部分包装类在声明变量时不赋值的情况下java给他们的默认赋值 当基本数据类型作为普通变量(八大基本类型: byte,char,boolean,short,int,long,float,double) 只有开发人员对其进行初始化,java不会对其进行初始化, 如果不初始化基本类型变量,则编译时就会报错 实验

论文阅读之Regularized Evolution for Image Classifier Architecture Search

Regularized Evolution for Image Classifier Architecture Search这篇文章实际上解决的是针对NAS这个问题用EA算法的缺陷,一个很强的motivation是NAS是需要对搜到的网络进行重新训练的,但是即使是一个比较差的网络,在训练的过程中也可能因为偶然因素变得很好,如果是传统的EA算法,在种

强化学习框架RLlib教程004:Training APIs的使用(三)高级pythonAPI

目录   定制训练流程(Custom Training Workflows)   全局协调(Global Coordination)   回调函数和自定义准则(Callbacks and Custom Metrics)   可视化自定义的度量(Visualizing Custom Metrics)   自定义探索行为(Customizing Exploration Behavior)   训练过程中自定义评估(Cus

data exploration with R

数据挖掘的简单流程包括以下部分: 数据获取:爬虫等途径获取数据 数据预处理:数据清洗、数据变换、数据描述 特征工程:特征构建、特征选择、特征提取 数据建模 预测或分析 数据获取暂时略过,爬虫方面R和Python都有很多好用的包,尤其是Python的Beautiful Soap,很方便使用了。 数据预处

[CF852D] Exploration plan

问题描述 The competitors of Bubble Cup X gathered after the competition and discussed what is the best way to get to know the host country and its cities. After exploring the map of Serbia for a while, the competitors came up with the following facts: the cou