人工智能——纳什平衡
作者:互联网
人工智能-纳什平衡
1.什么是纳什平衡
纳什均衡是博弈论中很重要的一个知识,用约翰·纳什的名字命名。在一场博弈中或者说是对抗中,不管对方的会选择哪种策略,己方都会选某个已经确定好的最优策略,那么这个策略就叫做支配性策略。假如两个博弈人双方的策略组合都各自构成各自的支配性策略,则这个策略组合就叫做纳什均衡。
例如:假定博弈者甲的策略为Q,博弈者乙的策略为W。如果Q是W的支配性策略,且W也是Q的支配性策略,就把这样一个策略组(Q,W)叫做纳什均衡。
纳什均衡可以说是人工智能博弈论中的一个非常重要的知识。它是各个博弈者所选择的一种决策行为,它可以让博弈者不会去改变这种选择,因为进行改变后会使当前选择的决策不是最优的决策;或者说在其他博弈者是理智的前提下,他们也会选择他们当前情况的最优选择策略,那么纳什均衡就是博弈者的最优选择。
2.案例分析—囚徒困境
下面是博弈论中最常见的一个举例:囚徒困境。这个例子向我们解释了在某些有着共同利益或者不同利益以及共同合作的情况下,博弈者是怎么考虑自己的个人利益从而做出相应的决策。
假设一个案件的犯人有两个,嫌疑人A和嫌疑人B,他们被分开进行审问,他们每个人都有有两种选择:抵赖或者认罪。则他们两人能做的选择组合有四种:
抵赖,抵赖 |
抵赖,认罪 |
认罪,抵赖 |
认罪,认罪 |
对此有下面假设:
如果都抵赖,则都会被判1年监禁;如果一人认罪另一人抵赖,则这人直接释放,另一人判10年;如果都认罪,则都判4年。
由上述条件可以得出以下表格:
|
|
嫌疑人B |
|
|
|
抵赖 |
认罪 |
嫌疑人A |
抵赖 |
(-1,-1) |
(-10,0) |
认罪 |
(0,-10) |
(-4,-4) |
在这样的情况下,博弈者或者说是嫌疑犯该如何选择呢?这困境主要是因为嫌犯们都不知道对方的将会选择什么,对于嫌犯们来说最优决策显然是上表中的左上角,也就是两人都抵赖,这也是集体利益最大化的。
在这个困境中,显然不是考虑最优整体利益。从两个嫌犯的整体利益来看,如果两个嫌疑犯都去选择抵赖,那么这两个嫌犯都只是被判1年,这也是在这个困境中的最优的集体利益。
但是,根据假设,这两个嫌疑人都是理性的正常人,并且只会考虑个人的最大利益。在这种前提下,他们都将会选择都认罪,最后嫌犯的判决结果都会比一起抵赖高,就总体利益来看较低。这就是“困境”所在。这个例子很好的证明了:在非零和的博弈中,集体利益最优和纳什均衡决策是相冲突的,并且纳什均衡是经常出现的。
但是在这个困境中的纳什均衡是什么呢?很显然肯定不是这个对于集体而言的利益最优的决策,因为他们中的任何一个人都想着自己的利益最大化,而不会是选择集体利益,所以他们的决策就由一起抵赖变成了一起认罪,从而使自己的个人利益得到最大化。所以,就有下面的推理:
嫌疑人A很有可能会这样想:如果嫌疑人B选择了抵赖,那么自己选择认罪得到的利益更大;假如嫌疑人B选择了认罪,那么自己选择一起认罪也能达到个人最大利益化,所以最终选择将会是认罪。同理,嫌疑人B也会做相应的思考,最后做出相同的决定,所以在这个困境中的纳什均衡就是两个嫌疑人A和B同时选择认罪。
3.总结
如果嫌犯们彼此合作,一起抵赖,那么就可以给集体带来最大的利益也就是两人都无罪释放,但是呢,在双方没有统一口供的前提下,那么背叛这个决策就可以给自己带来最大利益,因此嫌犯双方都选择背叛虽然达不到集体利益的最大化,但却是因此让自己的利益达到了最大化。而现实生活中,不可能存在这样的情况,因为嫌犯们考虑的不只是刑期这个因素,还有其他很多因素,比如报复等。
博弈论在人工智能领域得到了很好的运用,在现实生活中适当的运用博弈论的思想也能让我们做出对自己利益更优更好的选择决策。在生活中的许多对抗和较量中,成败的关键在于这三个因素:运气、体能和技能。因此想要在各种选择与对抗中获得最大利益,就得用博弈论的思想去思考,去做出最优的选择决策。
标签:认罪,人工智能,抵赖,选择,博弈者,平衡,纳什,最优 来源: https://www.cnblogs.com/dengwan/p/16386913.html