其他分享
首页 > 其他分享> > 组会记录——强化学习

组会记录——强化学习

作者:互联网

※ 对数似然函数与一般似然函数的区别?

1、方便求导;

2、减少计算量;

3、不影响单调性。

 

※ 离散变量如何求导?指示函数如何求导?

 

 

※ 强化学习需要状态都是离散量吗?

状态空间S和动作空间A都必须使有限的?现在强化学习已经有处理连续变量的technique?

 

首先是由于功率控制是MDP问题,所以可以用强化学习。

 

※ Meta-learning

Support set 和 Query set

 

标签:似然,set,函数,记录,学习,组会,求导,强化
来源: https://www.cnblogs.com/Zihuatanejo-zwyu/p/16475904.html