算法学习(十)——强化学习中的奖励设置(不完整)
作者:互联网
强化学习中奖励函数的设置非常复杂,这里只是总结一下我的理解。
1.收益信号只能用来传达什么是你想要实现的目标,而不是如何实现現这个目标。所以不应该把奖励设置的过于细致。
2.使用惩罚项可能导致智能体一动不动,因为不动就不会有惩罚。所以有惩罚项的训练过程可能存在搜索不足的问题。
3.渐进型的奖励容易实现,但是很容易违背第一条原则,而事件型的奖励符合第一条原则,但是效果一般很差,比如要到达某一个点,但是只在目标点给奖励,这样训练的智能体寻路效果一般都不好。
4.据说如果batchsize如果为2^12,那么奖励函数就变得不重要了??
参考文章:
https://zhuanlan.zhihu.com/p/170523750
标签:惩罚,第一条,目标,学习,奖励,算法,设置 来源: https://blog.csdn.net/weixin_42769131/article/details/113186483