首页 > 编程语言> > 算法学习（十）——强化学习中的奖励设置（不完整）

算法学习（十）——强化学习中的奖励设置（不完整）

2021-01-26 19:00:55 作者：互联网

强化学习中奖励函数的设置非常复杂，这里只是总结一下我的理解。

1.收益信号只能用来传达什么是你想要实现的目标，而不是如何实现現这个目标。所以不应该把奖励设置的过于细致。

2.使用惩罚项可能导致智能体一动不动，因为不动就不会有惩罚。所以有惩罚项的训练过程可能存在搜索不足的问题。

3.渐进型的奖励容易实现，但是很容易违背第一条原则，而事件型的奖励符合第一条原则，但是效果一般很差，比如要到达某一个点，但是只在目标点给奖励，这样训练的智能体寻路效果一般都不好。

4.据说如果batchsize如果为2^12，那么奖励函数就变得不重要了？？

参考文章：

标签：惩罚,第一条,目标,学习,奖励,算法,设置
来源： https://blog.csdn.net/weixin_42769131/article/details/113186483