其他分享
首页 > 其他分享> > 基于纳什均衡的多智能体强化学习交通信号控制

基于纳什均衡的多智能体强化学习交通信号控制

作者:互联网

纳什均衡理论基本概念

  1. 基本概念
  1. 从博弈论到多智能体强化学习
  1. 基于纳什均衡的优势行动者评论家算法

-Nash-A2C 算法(基于纳什均衡的优势行动者评论家算法)
优势函数代表着 Qˆ 和 Vˆ 的差值
其中,优势函数 Advance 为 为用于评估奖励的价值函数。Q 函数用于奖励预测。
分离参数集合 θ 为价值函数参数集合和策略函数参数集合
其中 θV代表值函数的模型 ˆV θV的参数; θA代表智能体(参与者)动作选择策略的模型参数 ˆπθA。算法目标为:将采样的样例的损失和 Nash-Bellman 方程联系起来,最小化:

为了简化上式表达,我们定义:

引入记忆缓冲区(replaybuffer)来存储三元组 ,分别代表环境的先前状态 xt−1,在该状
态下执行的操作 u,环境的下一个状态 xt,和经过这个状态的奖励 yt。我们从replay buffer 中随机采样一段记忆信息,使用随机梯度下降(SGD)更新参数。该算法还使用 ϵ-贪婪探索,优化动作策略。
Nash-A2C 算法结构:

算法步骤:

  1. 仿真实验
    分别采用固定时长 、Q 学习 、DQN、Nash-Q、Nash-A2C、Nash-A3C 交通信号控制的算法在基于真实交通流量的城市多交叉路口仿真平台 USE 仿真环境中进实验并收集实验结果。
  1. 实验小结
    MARL 算法中引入纳什均衡理论,对于提升 MARL 的交通信号的控制效果具有正向作用。这也为后续章节算法使用纳什均衡理论建立一定的基础。

标签:函数,交叉路口,算法,均衡,交通信号,纳什,Nash
来源: https://www.cnblogs.com/suancai/p/15492327.html