其他分享
首页 > 其他分享> > 机器学习 | 强化学习(8) | 融合学习与规划(Integrating Learning and Planning)

机器学习 | 强化学习(8) | 融合学习与规划(Integrating Learning and Planning)

作者:互联网

8-探索与开发(Exploration and Exploitation)

1.导论

探索与开发二难问题

探索的方案(Approach to Exploration)

状态-动作探索与参数探索

因此我们重点在于状态-动作探索

2.多臂老(和谐)虎(和谐)机问题(Multi bandit)

**可以看作一个单步MDP模型

分析

计算悔数(Counting Regret)

贪心算法(Greedy Algorithm)

最优初始化的贪心算法(Greedy Algorithm with optimistic initialisation)

\(\epsilon-Greedy\)算法

衰变\(\epsilon-Greedy\)算法(Decaying \(\epsilon-Greedy\) Algorithm)

黎·拉宾氏定理(Lai and Robbins)**黎氏:黎子良(Tze Leung Lai)香港美籍科学家

对于渐近总悔数其下界至少是与步数呈对数增长

\[\lim_{t\rightarrow\infin} L_t \ge \log t \sum_{a|\Delta > 0}\frac{\Delta_a}{KL(\mathcal{R^a|R^{a^*}})} \]

上确信界(Upper Confidence Bounds)

霍夫丁不等式(Hoeffding;s Inequality)

解决上确信界(Solving Upper Confidence Bounds)

更多的上确信界形式

贝叶斯老(和谐)虎(和谐)机(Bayesian bandits)

基于上确信界的贝叶斯老(和谐)虎(和谐)机(Bayesian Bandits with Upper Confidence Bounds)

概率匹配(Probability Matching)

辛普森采样(Thompson Sampling)

价值信息(Value Information)

信息状态空间(Information State Space)

伯努利老(和谐)虎(和谐)机(Bernoulli Bandit)

信息状态空间老(和谐)虎(和谐)机(Information State Space Bandits)

适应于贝叶斯的伯努利老(和谐)虎(和谐)机(Bayes-adaptive Bernoulli Bandits)

更多拓展

解决多臂老(和谐)虎(和谐)机的总算法

上下文式老(和谐)虎(和谐)机

马尔科夫决策过程

上确信界的马尔科夫决策过程

\[A_t=\mathop{\arg\max}_{a\in\mathcal{A}}Q(S_t,a)+U(S_t,a) \]

适用于贝叶斯的MDP

标签:状态,探索,动作,Integrating,贝叶斯,学习,Planning,和谐,mathcal
来源: https://www.cnblogs.com/uzuki/p/14290039.html