首页 > 其他分享> > 人工智能在非完全信息下的动态博弈

人工智能在非完全信息下的动态博弈

2022-06-18 17:38:34 作者：互联网

世界围棋冠军李世石败给谷歌公司开发的围棋机器人阿尔法狗，这无疑宣告了人类在完全信息动态博弈领域的完全败北。于是人们的目光自然而然投向了非完全信息动态博弈领域。在非完全信息动态博弈领域，人类是否还有胜机？要回答这个问题，首先必须了解在非完全信息下，人工智能如何动态博弈。

一、完全信息动态博弈和非完全信息动态博弈的区别

完全信息动态博弈，指的是博弈中的信息是完全透明的。经典的棋类游戏，如象棋，国际象棋，围棋，五子棋都是完全信息动态博弈。博弈双方对对手的战略空间和战略组合下的支付函数有完全的了解，也就是说，对手的所有可能的行动都是可以预测的。

与完全信息动态博弈概念相对的非完全信息动态博弈，则意味着人在进行博弈时不清楚博弈中的某些要素，比如扑克牌游戏和麻将中玩家并不清楚其他玩家的手牌。这种信息不透明的产生根本原因在于牌堆的随机性，如果牌堆不随机的，玩家的手牌可以预测，非完全信息动态博弈就不成立了。

而牌堆的随机性很大程度决定了博弈的胜负。举一个夸张的例子，麻将游戏中有着天胡的说法，指的是玩家的初始手牌不需要更换就能满足游戏的胜利条件。由此可见，非完全信息动态博弈可以说是运气游戏的一种，这也让在算力上远不如人工智能的人类看到了胜利的希望，可事实真的是如此吗？

二、非完全信息下，人工智能如何动态博弈

对于完全信息动态博弈，其游戏难度通常用“状态空间复杂度”来衡量。“状态空间复杂度”，指的是棋局进行过程中所有符合规则的状态总数量。例如围棋的状态空间复杂度为10^172，远超其他牌类游戏。

而非完全信息游戏，在状态空间复杂度的基础上引入“信息集”的概念。完全信息游戏中所有信息都是透明的，所以每个信息集只包含一个游戏状态，与状态空间数目相同。在非完全信息游戏中，与不透明的信息的假设对应，每个信息集包含着不同的游戏状态。例如麻将游戏中，平均每个状态空间对应着超过10^48个信息集，这意味着玩家看不到的牌可能有多达10^48个可能。

由于信息集平均大小较大，人工智能并不能直接采用阿尔法狗常用的蒙特卡洛树搜索算法。针对非完全信息游戏的特点，在人工智能自我博弈的训练阶段，透露一些不可见的信息给人工智能，可以使人工智能更加接近完全信息下的最优路径。这种方法的好处是倒逼人工智能更加深入理解可见信息，从而找到有效的决策依据。

三、人类能在非完全信息动态博弈中赢过人工智能吗

由于不可控的运气成分，人类也能在单局非完全信息动态博弈中赢过人工智能。但是随着对局数的增大，胜率受运气的影响会越来越小，向着选手的真实水平收敛。

就信息集平均大小而言，麻将远超其他牌类游戏。但事实上，早就已经有人工智能在麻将领域战胜人类。2019 年 3 月，Suphx 获批进入专业麻将平台“天凤”。短短四个月内，Suphx 在该平台对战 5760 次，成功达到了十段。可以说人类已经在非完全信息动态博弈领域败下阵来。

标签：博弈,游戏,人工智能,完全,信息,动态
来源： https://www.cnblogs.com/weinbery/p/16388782.html