首页 > 其他分享> > Risk-Aware and Multi-Objective Decision Making with Distributional Monte Carlo Tree Search

Risk-Aware and Multi-Objective Decision Making with Distributional Monte Carlo Tree Search

2021-11-06 12:31:07 作者：互联网

发表时间：2021 （AAMAS 2021 extended abstract）
文章要点：这篇文章想说通常RL都是去最大化累计回报，这个值通常都是标量，标量反映出来的信息肯定就没有分布多。这篇文章就在risk-aware and multi-objective的设定下用MCTS来做distributional这个事情（Distributional Monte Carlo Tree Search）。具体来说，这个时候的reward变成了向量形式，最后用效用函数（utility）转成一个最终的标量。这里有两个指标，一个是scalarised expected returns (SER)

就是先求期望，然后再作用到utility上变成标量。另一个是expected scalarised returns (ESR)

就是先作用到utility上变成标量，再求期望。作者想说他这个DMCTS的方式对于两者都适用，而且对于分线性的utility也适用。
方法上来看，MCTS没有变，还是Selection，Expansion，Simulation，Backpropagation这几个步骤，只是里面的reward变成了维护一个向量，并且和围棋不一样的是树里面多了chance node。然后selection的时候没用UCT，而是用Bootstrap Thompson Sampling，这个逻辑上和UCT其实差不多，思路就是根据之前的访问数据，更新参数α,β从而更新后验分布，然后根据分布去选使得ESR或者SER最大的动作。这里的exploration主要就是由bootstrap完成，不同的bootstrap会产生不同的α,β，从而平衡exploitation和exploration。
总结：很成功的应用，从结果上来看，比Q-learning based的RL算法好不少。不过几个实验还是比较简单的，不知道复杂一点的好不好用，特别是计算量上面。
疑问：risk-aware到底是啥？
两个指标ESR和SER从真实含义上来看，有啥区别？
文章里面一直提过去的回报和未来的回报

我感觉所有RL的算法都会考虑这个吧，不知道这个地方强调的点在哪？
文章一直强调utility function是线性或者非线性的区别，这个在算法层面有什么影响？

标签：Multi,这个,Risk,Decision,RL,SER,标量,ESR,utility
来源： https://www.cnblogs.com/initial-h/p/15516448.html