多臂赌博机
作者:互联网
K臂赌博机问题描述:
重复在K个动作中选择,每次做出选择后都会得到一定数值的收益,收益由选择的动作决定的平稳概率分布产生,目标是在某一段时间内最大化总收益的期望。
思路:
选择收益(价值)最大的动作。知道价值则直接选择,不知道价值就通过多次试验估计价值。
动作值估计
- 大数定律(多次尝试这个动作,对结果去均值即可)采样平均法
取均值意味着得到所有数据的均值,一种方法是记录全部数据,然后计算其均值,时间和空间资源都被浪费;另一种方法是利用增量,只需要知道增加的量和原来的均值,有以下的更新公式:
一般形式是:新估计值 = 旧估计值 + 步长 × [目标 - 旧估计值]
在平稳问题(奖励的概率分布不变),采用采样平均法估计动作值,更新步长为1/n。在非平稳问题(奖励的概率分布随时间变化),给近期的奖励比过去很久的奖励更高的权重,可采用固定步长
根据动作值来选择动作:\(\varepsilon\)-greedy策略、greedy策略、上限置信区间动作选择(Upper Confidence bound,对\(\varepsilon\)-greedy的改良。修改了选择其余动作的概率)
小技巧:优化初始条件(在使用贪婪策略时,由于初值较大,一直找不到最优动作可以保持探索。尽管在前期表现不好,一直在探索,但一段时间后,探索的概率会降低,系统会收敛于一个更好的值)
- 数值偏好
不依赖动作的奖赏,而是利用不同动作间的相对偏好或重要程度来选取动作
随机梯度下降法,softmax变换来选择最优动作。
标签:赌博机,动作,概率分布,均值,多臂,选择,步长,greedy 来源: https://www.cnblogs.com/yuyuanliu/p/14784120.html