强化学习(DQN)之基础概念
作者:互联网
目录
讲完了神经网络的一些基本知识,我们现在来学习强化学习(DQN),首先我们需要了解DQN有什么用,强化学习是一种目标导向的计算方法,其中计算机通过与未知的动态环境进行交互来学习执行任务。 这种学习方法使计算机可以做出一系列决策,以最大化任务的累积奖励,而无需人工干预,也无需进行明确编程即可完成任务。简单来说就是我们想要计算机像人一样能够与环境进行互动。比如说前阵子非常火AlphaGo就是通过DQN实现的。要学习DQN,我们需要一些简单的概率论知识。
1. 数学知识
1.1 随机变量与观测值
随机变量是一个基于随机事件结果的变量,我们通常用大写字母表示如 指的是某个随机事件有两种结果,其中一个结果我们用0表示另一个用1表示。
观测值指的是已经发生的事件的结果的值,我们通常用小写字母表示如 表示第一次发生的事件的结果为1,第二次为0。
1.2 概率密度函数
我们在高中就学过的正态分布的函数就是一个概率密度函数,它的自变量是随机变量的可能值,因变量是这些可能值所对应的概率。
1.3 期望
期望可以粗略理解为一个事件发生很多后结果的“平均值”,我们用 表示 的期望严格定义如下
若随机事件的概率密度函数是连续的,则:
若随机事件的概率密度函数是离散的,则:
其中是一个指标集,可以看成 的定义域。
2. 专业术语
要学习DQN我们需要先熟悉常用的术语。
2.1 agent
agent指的是智能体,就是我们可以控制的进行决策的主体。比如说下棋的那个AlphaGo就是一个agent。
2.2 action
action指的是agent进行的决策,记成 。比如说AlphaGo落的某一步子可以看成一个action。
2.3 state
state指的是当前状态,记成 。比如说下棋过程中某一时刻整个棋盘就是某个状态。
2.4 policy
policy指的是控制action的策略,它是一个与state有关的关于action概率密度函数,记成.表示在状态 下的 的概率密度。
2.5 reward
reward指的是奖励,可以看出一种反馈来优化策略,记成 通常是自己定义。比如AlphaGo落子获得“气”网络就获得奖励。
2.6 state transition
state transition称之为状态转移,指的是state因为agent进行了某一个action而发生改变的过程。
2.7 trajectory
trajectory称之为轨迹,指的是从开始到结束的所以state和action构成的序列,如 便称为一个trajectory,其中 最后一步。
2.8 return
return称为回报又称为未来的累计奖励(cumulative future reward),一般用 表示,,但是我们通常认为不同时刻的 并不同等重要,即不同的
的权重不等,于是我们引入折扣(discount),用 表示,于是得到 。
2.9 value function
2.9.1 动作价值函数
action value function称为价值函数,其基本表达式是
表示对return也就是未来积累奖励求期望, 这个函数和当前的state和action还有policy有关,我们的目标肯定是最大化积累奖励,我们知道 这个函数和当前的state和action还有policy有关,三个变量不好处理,我们试着简化问题,我们定义 表示便利所有policy中最大的 ,这样只要确定了当前state我们就只需要决策当前的action就行了。
2.9.2 状态价值函数
如果我们定义,即对action求期望,这样我们就得出了回报和当前state的函数关系,确定了当前state我们就知道了当前胜算有多大,从而对局势进行判断。
3.OpenAI Gym
Gym是强化学习的常用标准库之一,有几大控制问题,常用于测试模型 Gym。
标签:概率密度函数,policy,2.9,概念,state,action,DQN,强化 来源: https://blog.csdn.net/ZDDWLIG/article/details/123597411