通俗理解博弈论相关术语
作者:互联网
20 世纪著名的诺贝尔经济学奖得主莎缪尔森(Paul A. Samuelson, 1915-2009)曾经说过:
要想在现代社会做一个有文化的人,必须对博弈论有一个大致的了解。
博弈论中有很多看似复杂的术语,本篇文章就一一对其进行剖析,附上一些案例有助于更好理解。
囚徒困境
囚徒困境是博弈论中最经典的例子:
两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑五年。
C、D两人的收益矩阵如下图所示:
纳什均衡
纳什均衡指的是这样一种策略组合,即在给定别人策略的情况下,没有人愿意单方面改变自己的策略,从而打破这种均衡。
简单来说,纳什均衡就是指当前状态是对自己的最优状态,在纳什均衡状态下,改变决策就会让自己收益降低。
回到上面的囚徒困境的例子,该例子存在一个纳什均衡:(D,D)(两个人都选择告发)
先看横行:
假设第一个人选择D(告发),那么第二个人只能在蓝色方框中进行选择,对他来说只有两个选择,选择告发D,那么收益-5,选择不告发,收益为-10,对它来说,选D自然是最好的选择。
先看纵列:
假设第二个人选择D(告发),那么第一个人只能在蓝色方框中进行选择,对他来说只有两个选择,选择告发D,那么收益-5,选择不告发,收益为-10,对它来说,选D自然是最好的选择。‘
当两人都处于告发状态时,任何一方单方面改变策略,不会让自己的收益增加,所以D,D状态就是一个纳什均衡。
启示:
两人囚徒都选择告发,集体利益不如都选择不告发更好,然而,为了让自己的利益尽可能不受损,它们仍然选择告发。这就是博弈的威力——猜疑!对于不信任的对方,自己采取的策略往往是最保险的。
合作博弈
合作博弈亦称为正和博弈,是指博弈双方的利益都有所增加,或者至少是一方的利益增加,而另一方的利益不受损害,因而整个集体的利益有所增加。
合作博弈存在的两个基本条件:
1、对联盟来说,整体收益大于其每个成员单独经营时的收益之和。
2、对联盟内部而言,应存在具有帕累托改进性质的分配规则,即每个成员都能获得比不加入联盟时多一些的收益。
合作博弈的例子 :董事会投票、超市联盟
非合作博弈
在参与人利益相互冲突中如何选择策略使自己的收益最大,即策略选择问题。是一种不可能达成具有约束力的协议的博弈类型。
典型例子:零和博弈、负和博弈、囚徒博弈
完全信息博弈
指每一参与者都拥有所有其他参与者的特征、 策略及收益函数等方面的准确信息的博弈。
不完全信息博弈
参与人并不完全清楚有关博弈的一些信息
典型例子:市场上的讨价还价、工作岗位竞争
静态博弈
指博弈中参与者同时采取行动,或者尽管参与者行动的采取有先后顺序,但后行动的人不知道先采取行动的人采取的是什么行动。
典型例子:囚徒博弈
动态博弈
指参与人的行动有先后顺序,而且行动在后者可以观察到行动在先者的选择,并据此作出相应的选择。
典型例子:下棋
纯策略博弈
在完全信息博弈中,如果在每个给定信息下,只能选择一种特定策略。
纯策略的收益可以用效用表示。
混合策略博弈
在每个给定信息下只以某种概率选择不同策略。
混合策略的收益只能以期望效用表示。
这类博弈虽然在一次操作中有输有赢,但将这个博弈多次重复进行,可以研究各个战略应赋予多大的概率,能获得最大的期望(平均)收益。
占优策略
在参与人各自的策略集中,如果存在一个与其他竞争对手可能采取的策略无关的最优选择,则称其为占优策略。
典型案例:智猪博弈、天塌下来有大个子顶着
简单来说,占优策略即“不管你怎么做,我所做的都是我能做得最好的。”
帕累托改善/帕累托最优均衡
如果从一种策略组合到另一种策略组合的变化中,在没有使任何人境况变坏(收益变少) 的前提下,使得至少一个人变得更好,这就是帕累托改善。
帕累托最优的状态就是不可能再有更多的帕累托改善的策略组合;换句话说,不可能再改善某些人的境况,而不使任何其他人受损。
看个例子:
该情况下,A和B都可以是C的帕累托改善,但A不能是B的帕累托改善,因为B变成A,f1的利益增加,f2的利益却受损。
帕累托最优:在给定现有资源条件下,不存在任何其他配置结果使某些人情况更好,而又不使任何其他人处境更坏。
帕累托最优均衡:满足帕累托最优条件的均衡。
网络博弈
网络博弈指多参与人博弈。
演化博弈:从一个随机的初始状态开始,博弈人依次调整自己的策略使自己的收益最大化,整个网络处于一个演化的过程中。
典型案例:网络节点最小覆盖问题
下篇博文将对该问题进行剖析。
标签:术语,博弈论,博弈,策略,收益,帕累托,告发,选择,通俗 来源: https://blog.csdn.net/qq1198768105/article/details/121876678