人工智能在非完全信息下的动态博弈
作者:互联网
世界围棋冠军李世石败给谷歌公司开发的围棋机器人阿尔法狗,这无疑宣告了人类在完全信息动态博弈领域的完全败北。于是人们的目光自然而然投向了非完全信息动态博弈领域。在非完全信息动态博弈领域,人类是否还有胜机?要回答这个问题,首先必须了解在非完全信息下,人工智能如何动态博弈。
一、完全信息动态博弈和非完全信息动态博弈的区别
完全信息动态博弈,指的是博弈中的信息是完全透明的。经典的棋类游戏,如象棋,国际象棋,围棋,五子棋都是完全信息动态博弈。博弈双方对对手的战略空间和战略组合下的支付函数有完全的了解,也就是说,对手的所有可能的行动都是可以预测的。
与完全信息动态博弈概念相对的非完全信息动态博弈,则意味着人在进行博弈时不清楚博弈中的某些要素,比如扑克牌游戏和麻将中玩家并不清楚其他玩家的手牌。这种信息不透明的产生根本原因在于牌堆的随机性,如果牌堆不随机的,玩家的手牌可以预测,非完全信息动态博弈就不成立了。
而牌堆的随机性很大程度决定了博弈的胜负。举一个夸张的例子,麻将游戏中有着天胡的说法,指的是玩家的初始手牌不需要更换就能满足游戏的胜利条件。由此可见,非完全信息动态博弈可以说是运气游戏的一种,这也让在算力上远不如人工智能的人类看到了胜利的希望,可事实真的是如此吗?
二、非完全信息下,人工智能如何动态博弈
对于完全信息动态博弈,其游戏难度通常用“状态空间复杂度”来衡量。“状态空间复杂度”,指的是棋局进行过程中所有符合规则的状态总数量。例如围棋的状态空间复杂度为10^172,远超其他牌类游戏。
而非完全信息游戏,在状态空间复杂度的基础上引入“信息集”的概念。完全信息游戏中所有信息都是透明的,所以每个信息集只包含一个游戏状态,与状态空间数目相同。在非完全信息游戏中,与不透明的信息的假设对应,每个信息集包含着不同的游戏状态。例如麻将游戏中,平均每个状态空间对应着超过10^48个信息集,这意味着玩家看不到的牌可能有多达10^48个可能。
由于信息集平均大小较大,人工智能并不能直接采用阿尔法狗常用的蒙特卡洛树搜索算法。针对非完全信息游戏的特点,在人工智能自我博弈的训练阶段,透露一些不可见的信息给人工智能,可以使人工智能更加接近完全信息下的最优路径。这种方法的好处是倒逼人工智能更加深入理解可见信息,从而找到有效的决策依据。
三、人类能在非完全信息动态博弈中赢过人工智能吗
由于不可控的运气成分,人类也能在单局非完全信息动态博弈中赢过人工智能。但是随着对局数的增大,胜率受运气的影响会越来越小,向着选手的真实水平收敛。
就信息集平均大小而言,麻将远超其他牌类游戏。但事实上,早就已经有人工智能在麻将领域战胜人类。2019 年 3 月,Suphx 获批进入专业麻将平台“天凤”。短短四个月内,Suphx 在该平台对战 5760 次,成功达到了十段。可以说人类已经在非完全信息动态博弈领域败下阵来。
标签:博弈,游戏,人工智能,完全,信息,动态 来源: https://www.cnblogs.com/weinbery/p/16388782.html