其他分享
首页 > 其他分享> > Richard S.Sutton 《强化学习》 学习笔记 第三章

Richard S.Sutton 《强化学习》 学习笔记 第三章

作者:互联网

目录

第3章 有限马尔科夫决策过程

一二章链接

3.1 “智能体-环境”交互接口

任何目标导向的行为的学习问题都可以概括为智能体及其环境之间来回传递的三个信号:

  1. 用来表示智能体做出的选择(行动)
  2. 表示做出该选择的基础(状态)
  3. 定义智能体的目标(收益)

3.2 目标和收益

3.3 回报和分幕(episodes)


补充知识:

  1. 均值,其实是针对实验观察到的特征样本而言的;期望是针对于随机变量而言的一个量,可以理解是一种站在“上帝视角”的值。针对于他的样本空间而言的。
  2. 均值为多个随机变量的和再除以个数,相当于还是一个随机变量,当数量足够多的时候,这个随机变量会收敛,这个收敛的值为期望。
  3. 期望是先验概率,均值是后验。

3.4 分幕式和持续性任务的统一表示法

3.5 策略和价值函数

标签:Rt,Sutton,Gt,动作,Richard,状态,收益,学习,智能
来源: https://blog.csdn.net/strawberry47/article/details/116654430