首页 > 其他分享> > Coordinated Proximal Policy Optimization (CoPPO)

Coordinated Proximal Policy Optimization (CoPPO)

2022-06-20 22:04:26 作者：互联网

2111.04051

摘要：

提出了CoPPO。关键想法是，在对不同智能体进行策略更新时，对步长进行coordinated adaptation。证明了策略提升的单调性。基于一些近似，推导出了简化的优化目标。这样的一个优化目标，会实现智能体之间的动态的credit assignment。这样就可以缓解多智能体策略更新时的高方差性。实验演示，比MAPPO好。实验环境：cooperative matrix games，the StarCraft II micromanagement tasks。

引言：

Cooperative Multi-Agent Reinforcement Learning (CoMARL)有很大的希望可以用来解决现实世界中的许多问题，比如交通灯控制、传感器网络管理、自动驾驶车辆协调等。在这些应用问题中，一个智能体团组通过一个单一的全局奖励来最大化一个共同的期望应用性能。由于多个智能体同时处于一个共同的环境当中，同时学习并调整它们的行为，由此而引起的非稳态问题，让设计一个有效的学习方法变得很困难。

近期，有一些基于CTDE架构的CoMARL方法提出，包括policy-based和value-based。尽管一般地来说，policy-based的方法有稳定的收敛性、更适合随机性策略问题，但是policy-based方法在研究圈内得到较少的关注，实验上性能一般也比valued-based方法要差(Samvelyan et al., 2019)。

两类方法之间的差距很程度上可以归结为CTDE范式里中心化训练过程中性能不够好。在value based方法里，算法通过训练值函数来直接优化策略，可以利用额外的全局信息。在policy based方法里只能利用中心化值函数来进行状态/动作评估，然后策略函数来提升产生更高价值的似然度。或者说，在policy based方法里，中间值函数更新与策略函数更新之间有一个更新滞后。仅仅协调值函数是不足以保证令人满意的效果表现(Grondman et al., 2012; Fujimoto et al., 2018)。

为此，我们提出了Coordinated Proximal Policy Optimization (CoPPO)算法，PPO (Schulman et al., 2017)算法的一种多智能体扩展。为了直接协调不同智能体的策略，CoPPO算法在策略更新过程中进行动态地调整步长。我们首先证明了策略更新与联合策略表现下界之间的一个关系。基于这种关系，通过优化一个理想的目标函数，可以实现单调的联合策略改进。为了改进可扩展性与实现效能归属(credit assignment)，同时为了处理非稳态性带来的可能的高方差，一系列的变换与近似之后，我们推导出了一个可实施的优化目标，用于最终的CoPPO算法。尽管CoPPO最初是为了实现单调的联合策略改进，但CoPPO最终在每个智能体的策略更新步长的层次上，实现了不同智能体的策略之间的一个直接协调。具体地来说，通过考虑到其它智能体的策略更新，CoPPO实现了动态的效能归属，以此助于在每个智能的优化过程中获得一个合适的更新步长。实验研究，an extremely hard version of the penalty game (Claus and Boutilier, 1998)，StarCraft II micromanagement benchmark。

Value-based MARL