其他分享
首页 > 其他分享> > 多智能体语言

多智能体语言

作者:互联网

hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Learning to Communicate with
Deep Multi-Agent Reinforcement Learning这,是一篇关于多智能体语言的论文,我们一起看看吧~

摘要:
我们考虑多个智能体在环境中感知和行为的问题,目的是最大限度地利用它们的共享效用。 在这些环境中,智能体必须学习通信协议,以便共享解决任务所需的信息。 通过拥抱深层神经网络,我们能够演示在复杂环境中由通信谜语和具有部分可观测性的多智能体计算机视觉问题启发的协议的端到端学习。 在这些领域,我们提出了两种学习方法:增强的智能体学习(RIAL)和可微的智能体学习(DIAL)。 前者使用深度Q-learning ,而后者利用这样一个事实,即在学习过程中,智能体可以通过(噪声)通信通道反向传播错误导数 。 因此,这种方法使用集中学习,但分散执行。 我们的实验为研究通信协议的学习引入了新的环境,并提出了一套对这些领域的成功至关重要的工程创新。

1,引言

语言和交流是如何在智能体中出现的,一直是一个激烈争论的话题。 许多未解决的问题包括:语言为什么使用离散结构? 环境起什么作用? 什么是先天的,什么是后天的? 等等。 关于这些问题的一些辩论是如此激烈,以至于1866年法国科学院禁止关于人类语言起源的出版物。 近年来机器学习的迅速进展,特别是深入学习,为这场辩论开辟了一个新的视角。 智能体如何使用机器学习来自动发现他们需要的通信协议来协调他们的行为? 什么,如果有什么,深度学习能提供给这样的智能体吗? 我们可以从学习交流的智能体的成功或失败中收集到哪些见解?

在本文中,我们采取了回答这些问题的第一步。我们的方法是编程性的:首先,我们提出了一组需要通信的多智能体基础任务;然后,我们为这些任务制定了几种学习算法;最后,我们分析这些算法如何学习或无法学习智能体的通信协议。

我们考虑的任务是完全合作的、部分可观察的、有序的多智能体决策问题。 所有的智能体都有一个目标,那就是最大化相同的折扣奖励。 虽然没有智能体可以观察到潜在的马尔可夫状态,但每个智能体都会收到与该状态相关的私有观察。 除了采取影响环境的行动外,每个智能体还可以通过离散的有限带宽信道与其他智能体通信。 由于部分可观测性和有限的信道容量,智能体必须发现一个通信协议,使他们能够协调他们的行为和解决任务。

我们专注于集中学习但分散执行的环境。 换句话说,在学习期间,智能体之间的通信不受限制,这是由集中算法执行的;然而,在执行学习策略期间,智能体只能通过有限带宽信道进行通信。 虽然不是所有的现实世界问题都可以这样解决,但很多人可以这样解决,例如,当在模拟器上训练一组机器人时。 集中规划和分散执行也是多智能体规划[1,2]的标准范式。

为了解决这个设置,我们制定了两种方法。第一个,强化的智能体间学习(RIAL),使用带有递归网络的深度q学习[3]来解决部分可观察性。在这种方法的一种变体中,我们称之为独立的Q-learning,智能体各自学习自己的网络参数,并将其他智能体视为环境的一部分。另一种变体训练一个网络,其参数由所有智能体共享。执行仍然是分散的,此时他们会收到不同的观察结果,从而导致不同的行为。

第二种方法,可微分的代理间学习(DIAL),是基于这样的见解,即集中学习提供了更多的机会来提高学习能力,而不仅仅是参数共享。特别是,虽然RIAL可以在智能体中进行端到端训练,但它不能跨智能体进行端到端训练,也就是说,智能体之间不传递梯度。第二种方法允许在集中学习期间在智能体之间传递,从而将通信动作视为智能体之间的瓶颈连接。因此,梯度可以通过通信通道推送,产生一个可以端到端甚至跨智能体进行端到端训练的系统。在分散执行期间,实值消息被离散,并映射到任务允许的离散通信操作集。因为DIAL将梯度从一个智能体传递到另一个智能体,所以这是一种内在的深度学习方法

基于MNIST数据集和一个众所周知的谜语,对两个基本任务进行了实验,结果表明,这些方法不仅可以解决这些任务,而且沿途经常发现优雅的通信协议。 据我们所知,这是首次在涉及序列和原始图像的复杂环境中,通过深度神经网络进行可微通信或增强学习,成功地学习了通信协议。 结果还表明,通过更好地利用集中学习的机会,深度学习是学习这种协议的独特的强大工具。 最后,本研究提出了几个工程创新,这些创新对于学习我们提出的基准中的通信协议至关重要。

2.相关工作

传播研究涉及许多领域,例如。 语言学,心理学,进化论和人工智能。 在人工智能中,它沿着几个轴分裂:(A)预定义或学习的通信协议;(B)规划或学习方法;©进化或RL;(D)合作或竞争设置。

考虑到我们论文的主题,我们将重点放在处理通信协议的合作学习的相关工作上 。 在涉及通信的多智能体RL的大量工作中,例如[4-7],只有少数属于这一类。 大多数人假设一个预定义的通信协议,而不是试图学习协议。 一个例外是Kasai等人的工作。 [7],其中表格Q学习智能体必须学习消息的内容,以解决与通信的捕食者-猎物任务。 [8]给出了多智能体任务中开放式通信学习的另一个例子。 在这里,进化方法被用来学习在类似的捕食者-猎物任务上评估的协议。 他们的方法使用了一个健身功能,这是精心设计的,以加速学习。 一般来说,启发式和手工规则在这一研究领域得到了广泛的应用。此外,典型的任务一定很小,因此可以应用全局优化方法,如进化算法。本文所主张的使用深度表示和基于梯度的优化是一个重要的变形,对可伸缩性和进一步的进展至关重要。在[9]中也提供了一个类似的理由,这是一个使RL问题端到端可微的另一个例子。

与[10]最近的工作不同,我们考虑离散通信信道。 我们的方法的一个关键组成部分是在分散化执行过程中的信号二进制化。 这与最近关于在具有内存和计算限制的低功耗设备中使用二进制权重拟合神经网络的研究有关,例如。 [11],以及以前关于发现文档[12]的二进制代码的工作。

3.背景知识

DQN(Deep Q-Networks):

在单主体的,完全可观察的RL设置中[13],主体在每个离散时间步长t观察当前状态st∈S,根据潜在的随机策略π选择动作 ut∈U,观察到奖励信号 rt,并转换到新状态st + 1。其目标
为了最大化对折现收益的期望,,其中rt是在时间t收到的报酬,而γ∈[0,1]是折扣因子。策略π的Q函数为。最佳作用值函数遵循Bellman最优方程。深度Q学习[3]使用由θ参数化的神经网络来表示Q(s,u;θ)。通过最小化来优化DQN:,在每次迭代i时,目标yi DQN == r +γmaxu0 Q (s0,u0;θi-)。在此,是冻结了多个目标网络的参数,更新在线网络Q(s,u;θi)时的迭代次数。动作u是由动作选择器从中选择的,该动作选择器通常实施-贪心策略,该策略选择以1-的概率最大化Q值的动作,并以概率随机选择的。 DQN还使用体验重播:在学习过程中,智能体会建立情景体验的数据集,然后通过对微型体验进行抽样来对其进行训练。

Independent DQN:

DQN已经扩展到合作多智能体设置,在该设置中,每个智能体a观察全局st,选择单个动作,并获得所有智能体之间共享的团队奖励rt。塔卡姆等人[14]使用一个结合DQN和独立q学习的框架来解决这个设置,在这个框架中,每个智能体都是a独立地同时学习自己的q函数。虽然独立的q学习原则上会导致收敛问题(由于一个主体的学习使环境对其他主体显得不稳定),但它有很强的经验记录[15,16],并成功地应用于双人乒乓球。

Deep Recurrent Q-Networks:

DQN和独立的DQN都具有完全的可观测性,即智能体接收st作为输入。 相反,在部分可观察的环境中,st是隐藏的,智能体只接收与st相关的观察,但通常不消歧。 Hausknecht和Stone[17]提出了深度递归Q网络(DRQN)来解决单智能体的、部分可观察的设置。 与其用前馈网络近似Q(s,u),它们用递归神经网络近似Q(o,u),该神经网络可以保持内部状态并随着时间的推移聚合观测值。 这可以通过添加表示网络隐藏状态的额外输入ht−1来建模,从而产生。 对于符号简单性,我们省略了Q对θ的依赖。

4.设置

在本工作中,我们考虑了多个智能体和部分可观测性的RL问题。 所有智能体都有一个目标,即最大限度地利用相同的折扣奖励。 虽然没有智能体可以观察到潜在的马尔可夫状态st,但每个智能体a接收与st相关的私有观察。 在每个时间步骤t中,每个智能体选择一个环境动作uat∈影响环境的U,以及一个由其他智能体观察但对环境或奖励没有直接影响的通信动作垫∈M。 我们对这种设置感兴趣,因为只有当多个智能体和部分可观测性共存时,智能体才有交流的动机。 由于没有先验的通信协议,智能体必须开发并商定这样的协议来解决任务。

由于协议是从动作观察历史到消息序列的映射,因此协议的空间是非常高维的。在这个空间中自动发现有效的协议仍然是一个难以捉摸的挑战。特别是,由于需要智能体来协调消息的发送和解释,这加剧了探索这一协议空间的困难。例如,如果一个智能体向另一个智能体发送有用的消息,则只有当接收智能体正确解释并对该消息进行操作时,它才会获得积极的奖励。 如果没有,发送方将被阻止再次发送该消息。 因此,积极的回报是稀疏的,只有当发送和解释被适当协调时才产生,这很难通过随机探索发现。

我们关注的是在集中学习期间代理之间的通信不受限制的设置,但在学习策略的分散执行期间,智能体只能通过有限的带宽信道进行通信。

5.方法

在本节中,我们提出了两种学习通信协议的方法。

5.1 Reinforced Inter-Agent Learning

最直接的方法,我们称之为强化代理间学习(RIAL),是将DRQN与独立的Q学习结合起来进行行动和通信选择。 每个代理的Q网络,它对该智能体的个体隐藏和观察以及来自其他智能体的消息
进行了条件限制。

为了避免需要具有输出的网络,我们将网络分成,分别是环境和通信操作的Q值。 与[18]类似,操作选择器使用-贪婪策略分别从Qu和Qm中选择
。 因此,网络只需要|U|M|输出,动作选择需要在U上最大化,然后在M上最大化,而不是在U×M上最大化。

Qu和Qm都使用DQN进行训练,并进行以下两个修改,这对于性能是必不可少的。 首先,我们禁用经验回放,以解释当多个智能体同时学习时发生的非平稳性,因为它会使经验过时和误导。 第二,为了考虑部分可观测性,我们在每个智能体所采取的动作u和m中作为下一个时间步骤的输入。 图1(a)显示了智能体和环境之间的信息流,以及操作选择器如何处理Q值以产生操作和消息。 由于这种方法将智能体视为独立的网络,所以学习阶段没有集中,尽管我们的问题设置允许它。 因此,在分散执行过程中,智能体的处理方式与在学习过程中完全相同。

图1:底部行和顶部行分别表示智能体a1和智能体a2的通信流。 在RIAL(A)中,所有Q值都被输入到操作选择器中,该选择器同时选择环境和通信操作。 梯度,显示为红色,是使用DQN计算所选的动作和流动只通过Q网络的单一智能体。 在DIAL(B)中,消息绕过动作选择器,而是由DRU(第5.2节)处理,并作为连续值传递给下一个C网络。 因此,梯度在代理之间流动,从收件人到发件人。 为了简单起见,在每个时间步骤中只突出显示一个智能体,而另一个智能体被灰色化。

参数共享 RIAL可以扩展到通过在智能体之间共享参数来利用集中学习的机会。这个变体只学习一个网络,它被所有的智能体使用。然而,智能体仍然可以有不同的行为,因为它们接收到不同的观察结果,从而进化出不同的隐藏状态。

此外,每个智能体都会收到自己的索引a作为输入,从而允许它专门化。深度q网络中丰富的表示可以促进对共同策略的学习,同时也允许专业化。参数共享还大大减少了必须学习的参数的数量,从而加速了学习。在参数共享下,智能体学习两个Q函数
。在分散执行过程中,每个智能体使用自己的学习网络副本,进化自己的隐藏状态,选择自己的操作,并只通过通信信道与其他智能体通信。

5.2 Differentiable Inter-Agent Learning

虽然RIAL可以在智能体之间共享参数,但它仍然不能充分利用集中学习。特别是,智能体不会对他们的通信行动给予相互之间的反馈。与人类交流相比,人类有丰富的紧密反馈循环。例如,在面对面的互动过程中,听众会向演讲者发送快速的非语言队列,表明理解和兴趣的程度。RIAL缺乏这种反馈机制 ,这对学习通信协议很重要。为了解决这一局限性,我们提出了可微的智能体间学习方法 。DIAL背后的主要见解是,集中学习和q网络的结合不仅可以共享参数,而且可以通过通信通道将梯度从一个智能体推到另一个智能体。因此,虽然RIAL在每个智能体中都可以进行端到端训练,但DIAL则可以跨智能体进行端到端训练。让梯度从一个智能体流到另一个智能体,会给它们更丰富的反馈,通过尝试和错误减少所需的学习量,并减少有效协议的发现。

DIAL的工作原理如下:在集中学习期间,通信动作被改为一个代理网络的输出和另一个代理网络的输入之间的直接连接。因此,虽然任务限制通信为离散的消息,但在学习过程中,代理可以自由地相互发送真实值的消息。由于这些消息具有任何其他网络激活的功能,因此梯度可以沿着信道传回,从而允许跨代理进行端到端反向传播。

特别是,我们称之为C网络网络输出两种不同类型的值,如图1(b)、
a)Q(·),环境操作馈给动作选择器的Q值,
b)向其他智能体输出实值矢量消息,这些智能体绕过动作选择器,而由离散/规则化单元处理。DRU在集中学习过程中规则它,,其中σ是添加到信道的噪声的标准偏差,并在分散执行期间离散,。图1显示了RIAL和DIAL中梯度流动的不同情况。RIAL和Q的梯度链是基于DQN损失的。但是,在DIAL中,m的渐变项是从消息的收件人到发件人的反向传播错误。使用这个智能体间的梯度进行训练提供了比RIAL中Qm的DQN损失更丰富的训练信号。虽然DQN误差仅对所选消息为非零,但传入梯度是一个 |m| 维向量,可以包含更多的信息。 它还允许网络直接调整消息,以最小化DQN损失。减少对良好协议的尝试和错误学习的需要。

虽然我们将我们的分析限制在离散消息上,但DIAL自然地处理连续的消息空间,因为它们在集中学习被使用。 同时,DIAL还可以扩展到大的离散消息空间,因为它学习二进制编码,而不是RIAL中的一热编码,。 进一步的算法细节和伪码在补充材料中。

6.实验

在本节中,我们评估了两个多代理问题中的有无参数共享的RIAL和DIAL,并将其与无通信共享参数基线(无通信)进行了比较。显示的结果是多次运行的平均性能,其中没有参数共享(-NS)的运行用虚线表示。在不同的情节中,奖励是通过进入真实的状态时可以获得的最高平均奖励来标准化的。在实验中,我们使用了一个具有=0.05的-贪婪策略,折扣系数是γ的=1,目标网络每100集重置一次。为了稳定学习水平,我们分32批执行并行事件。这些参数使用RMS程序[19]进行优化,学习速率为5×10−4。该架构使用了校正的线性单元5(ReLU)和门控循环单元(GRU)[20],它们具有与长期短期记忆21[22]类似的性能。除非另有说明,否则我们将添加到信道中的噪声的标准偏差设置为σ的=2,人们认为这对良好的性能至关重要。

6.1 模型结构

RIAL和DIAL共享相同的单独模型体系结构。 为了简洁起见,我们这里只描述DIAL模型。 如图2所示,每个代理由一个递归神经网络(R NN)组成,它为T时间步骤展开,该神经网络维护内部状态h,一个用于生成任务嵌入z的输入网络,以及Q值和消息m的输出网络。代理a的输入定义为(OAT,ma0t−1,uat−1,a)的元组)。输入a和uat−1通过查找表传递,而ma0t−1通过1层MLP传递,这两个输入都产生大小为128的嵌入。燕麦是通过特定任务的网络处理的,该网络产生相同大小的附加嵌入。 状态嵌入是由这些嵌入的元素求和产生的,ZTA=任务MLP(OAT) MLP|M|,128 查找(UAT−1) 调查(a)。 我们发现,当使用批量归一化层[23]预处理MT−1时,性能和稳定性得到了改善。 用GRU、HA1、t=GRU[128,128](Z TA、HA1、t−1)对ZTA进行2层RNN处理,用于近似Agent的动作观察历史。 最后,输出HA2,顶部GRU层的t,通过2层MLPQAT,MAT=MLP128,128,(|U|M|)

6.2 Switch Riddle

第一个任务的灵感来自一个著名的谜语,描述如下:“100名囚犯被带进监狱。监狱长告诉他们,从明天开始,他们每个人都将被安置在一个孤立的牢房里,无法相互交流。每天,监狱长会随机选择一名囚犯,并把他放在中央审讯室,里面只有一个带切换开关的灯泡。囚犯将能够观察到灯泡的当前状态。如果他愿意,他可以切换灯泡。他还可以选择宣布,他相信所有的囚犯都曾在某个时候访问过审讯室。如果这个声明是真的,那么所有囚犯都被释放,但如果是假的,所有囚犯都被处决…“[24]。

结构。 在我们的形式化中,在时间步骤t,代理a观察燕麦∈{0,1},这表示代理是否在审讯室。 由于交换机有两个位置,所以可以将其建模为1位消息,mat。 如果特工a在审讯室,那么它的行动是uat∈{“无”,“告诉”};否则唯一的行动是“无”。 当代理选择“Tell”或达到最大时间步T时,插曲结束。 奖励RT为0,除非代理选择“Tell”,在这种情况下,如果所有代理都去过审讯室,则为1,否则−1。 按照谜语定义,在本实验中−1只提供给审讯室的特工a。 最后,我们设置了时间层T=4n−6,以保持实验的计算可处理性。

复杂性。 开关谜语带来了重大的协议学习挑战。 在任何时间-步骤t,有|o|t可能的观察历史为给定的代理人,与|o|=3:代理人或不在审讯室或收到两个信息之一时,它是。 对于这些历史中的每一个,代理可以在4=|U||M之间选择不同的选项,因此在时间步长t时,单代理策略空间是(|U||M|),o|t=43t。 所有时间步骤的所有策略的乘积定义了代理的总策略空间:Q43t=4(3T1−3)/2,其中T是最终的时间步骤。多代理策略空间的大小以n为指数增长,代理的数量:4n(3T1−3)/2。我们考虑一个T与代理数量成正比例的设置,因此总策略空间为4n3O(n)。对于n个=4,其大小是4354288。我们使用DIAL的方法是将交换机建模为一个连续消息,在分散执行过程中被二值化。

**实验结果。**图4(a)显示了我们对n个=3代理的结果。这四种方法都在5k集中学习最佳策略,大大优于无通信基线。具有参数共享的DIAL大大比RIAL更快地达到最佳性能。此外,参数共享还加速了这两种方法。图4(b)显示了n个=4代理的结果。具有参数共享的DIAL的性能再次优于所有其他方法。在此设置中,没有参数共享的RIAL无法击败无通信基线。这些结果说明了代理要独立地学习相同的协议是多么的困难。因此,参数共享对于学习交流可能是至关重要的。DIAL-NS的性能类似于RIAL,这表明该梯度提供了更丰富、更健壮的信息源。我们还分析了通过采样1K集的DIAL发现的N=3发现的通信协议,图4©显示了与最优策略对应的决策树。当一个囚犯在第二天之后访问审讯室时,只有两种选择:一个或两个囚犯以前可能曾访问过这个房间。如果有三个囚犯,第三个囚犯是我们的

在这里插入图片描述
6.3 MNIST Games

在本节中,我们考虑了基于著名的MNIST数字分类数据集[25]的两个任务。

彩色数字MNIST是一款双人游戏,每个代理观察一个红色或绿色的随机MNIST数字的像素值,而彩色标签和数字值是隐藏的。奖励包括两个在动作中反对称的组成部分,颜色和数字的奇偶性。由于只能发送一点信息,代理必须同意编码/解码颜色或奇偶校验,而奇偶校验会产生更大的回报。游戏有两个步骤;在第一步中,两个代理都发送一个1位消息,在第二步中,他们选择一个二进制操作。多步MNIST是一种灰度变体,它要求代理开发一种通信协议,跨5个时间步集成信息,以猜测彼此的数字。在每一步,代理交换一个1位消息,在最后一步,不是=5,每个正确猜测的数字被授予=0.5。关于这两项任务的进一步细节见补充资料。

体系结构。 输入处理网络是一个2层的MLP任务MLP[(|c|×28×28)、128,128](燕麦)。图5描述了这两个游戏的一般设置。我们的实验评估表明,在第一层后使用批标准化提高了训练时间。

实验结果 图6(A)和图6(B)显示,DIAL在这两款游戏中的表现都明显优于其他方法。 此外,参数共享对于达到最优协议至关重要。 在多步MNIST中,σ=0.5得到结果。 在这个任务中,RIAL无法学习,而在彩色数字MNIST中,它在协议空间中围绕局部极小值波动;NoComm基线停滞在零。 DIAL的性能可以归因于直接优化消息,以减少全局DQN错误,而RIAL必须依赖于试验和错误。 DIAL还可以优化消息内容与许多时间步骤以后发生的奖励,由于代理之间的梯度传递,导致多步骤MNIST的最佳性能。 为了分析DIAL学到的协议,我们抽样了1K集。 图6©说明了代理1在时间步骤t时发送的通信位,作为其输入数字的函数。因此,每个代理都学习了数字的二进制编码和解码。这些结果表明,DIAL中的可微通信对于充分利用集中学习的力量是必不可少的,因此是研究通信协议学习的重要工具。

加粗样式

6.4 通道噪声的影响

为什么语言进化为离散的问题已经被研究了几个世纪,参见[26]中的概述。由于DIAL学习了连续渠道交流,我们的结果为这个话题提供了一个启发性的观点。特别是,图7显示,在开关谜语中,通信信道中无噪声的DIAL学习中心激活。相比之下,噪声的存在迫使信息在学习过程中进入两种不同的模式。在训练文档模型[12]和执行分类[11]时添加噪声方面也进行了类似的观察。在我们的工作中,我们发现增加噪音对成功的训练至关重要。对此进行的更多分析将出现在补充材料中。

7.结论

本文提出了新的学习环境和成功的技术。它提出了一个详细的比较分析,涵盖了涉及到深度网络通信协议学习的重要因素,包括可微通信、神经网络结构设计、信道噪声、绑定参数和其他方法方面。本文应该被视为用深度学习方法学习交流和语言的第一次尝试。理解沟通和语言的巨大任务,包括组合性、概念提升、对话代理和许多其他重要的问题,仍然摆在前面。然而,我们乐观地认为,本文中提出的方法可以帮助解决这些挑战

标签:DIAL,语言,通信协议,代理,学习,智能,RIAL
来源: https://blog.csdn.net/qq_38205273/article/details/115177555