首页 > 其他分享> > 论文阅读|两人零和马尔可夫博弈的在线极大极小Q网络学习《Online Minimax Q Network Learning for TZMGs》

论文阅读|两人零和马尔可夫博弈的在线极大极小Q网络学习《Online Minimax Q Network Learning for TZMGs》

2021-10-09 21:58:51 作者：互联网

文章获取https://doi.org/10.1109/TNNLS.2020.3041469

<Online Minimax Q Network Learning for Two-Player Zero-Sum Markpv Games>

IEEE TRANSACTION ON NEURAL NETWORKS AND LEARNING SYSTEMS/2020

1 摘要

这篇文章首先将问题表述为Bellman极小极大方程，广义策略迭代(generalized policy iteration,GPI)提供了一种双环迭代方法来寻找均衡。然后，引入神经网络来近似求解大规模问题的Q函数。提出了一种在线极小极大Q网络学习算法，利用观测数据对网络进行训练。采用经验重放(Experience Replay)、对抗网路（dueling network）、双Q学习(Double Q-learning)等方法改进学习过程。

2 介绍

马尔可夫博弈（MGs）是马尔可夫过程(MDP)的扩展.在MGs中，多个代理做出一系列决策，以最大化共同或个人利益。

两人零和MG（TZMG）是一种特殊情况，包括两个利益完全相反的参与者。它们共享相同的奖励功能，但一个目标是最大化未来奖励的总和，而另一个则试图最小化。

纳什均衡是博弈论中的一个重要概念。在均衡状态下，任何参与者都不会在不牺牲自身利益的情况下改变其政策。特别是，对于TZMG，纳什均衡表示一个玩家在面对最坏的对手时能够获得的最高回报。找到纳什均衡策略对于TZMGs中的参与者至关重要。

3 基本概念介绍

3.1 马尔可夫决策过程（MDPs）

通常，马尔可夫过程可用一个五元组来表示：

其中，S是游戏状态集，A是动作集，P是状态转移函数，R是奖励函数，γ是折扣因子，只有一个动作集，下一状态和获得奖励取决于单个agent的行为:

3.2 两人零和马尔可夫对策(TZMG)

TZMG可描述为一个六元组：

其中，O为另一个玩家的动作集。在每一步，两名玩家在博弈中同时决定并执行他们的动作，新状态满足分布：

环境反馈一个奖励信号：

这两个玩家的收益完全相反。一个目标是最大限度地增加未来的回报，另一个的目标是极小化目标。

3.3 纳什或极大极小均衡（Nash or Minimax Equilibrim）

在MGs中，没有一个参与者的策略总是最优的，因为其回报取决于其他行为。衡量一个玩家相对于其他玩家表现的两个著名概念是最佳应对和纳什均衡。对于有两个利益冲突方的TZMG，定义总结如下：

定义1：（TZMG 最佳应对）给定对手策略μ，如果没有比πb更好的策略，则己方策略πb称为最佳应对：

同理，对手的最佳应对：

注：由于两方的目标相反，即一个为极大，一个为极小，所以两者的符号先反，这也是为什么纳什均衡处于两者之间的原因。

定义2：（纳什均衡）纳什均衡对应于一对（π∗,μ∗)这两者都是对彼此最好的回应：

在TZMGs中，总是存在纳什均衡，它等价于极大极小解：

纳什均衡规定了玩家在最差的对手面前可以获得的最大回报，当我们不知道对手或对手是一个可学习的主体并根据我们的策略更新其行为时，纳什均衡是有意义的。

3.4 极大极小值方程

纳什均衡点的语气收益通常表示为极大极小值V*，根据最优化定理，将V*写入贝尔曼极大极小方程：

这里，我们把确定性策略看作是随机策略的特例。它是基于这样一个事实：一旦一个玩家的策略固定，TZMG剩下的问题就变成了单Agent MDP，并且确定性策略足以成为最优策略。

于是，TAMG的Q值可以定义为：

极小极大Q值的Bellman极大极小方程有：

3.5 线性规划求解极小极大方程（LP for Minimax Solution）

在Q值确定后，纳什均衡Π*由下式给出：

将其转化为线性规划模型，有：

纳什均衡点，可求解上诉线性规划方程得到。

4 动态规划求解贝尔曼你极小极大方程

预先定义两个操作符：

第一个式子T通过极大极小计算下一步的值。第二个Tπ遵循给定的自己的策略π，使对手对手动作集的下一步值最小化，因此可以将其看作具有二人Q值的最小化Bellman最优方程。两个式子具有一些共同的性质：

（1）单调和γ-收缩算子（The Operator is monotone and γ-contracting）

（2）具有唯一的固定点(It has unique fixed point)

4.1 价值迭代（Value Iteration）

给定一个初始Q0，Q函数的更新迭代根据T：

4.2 策略迭代（Policy Iteration）

策略迭代(PI)包括策略评估步骤和策略改进步骤,给定一个初始自身策略π0，重复以下两个步骤来生成一系列策略{πi}。

(1)求Q值：

（2生成新策略

标签：策略,极大,Minimax,Learning,极小,均衡,Online,纳什,TZMG
来源： https://blog.csdn.net/crazy_girl_me/article/details/120677980