龙空技术网

游戏的道德13

复杂的不是我 45

前言:

此刻各位老铁们对“鞍点的定义”大概比较讲究,看官们都需要剖析一些“鞍点的定义”的相关内容。那么小编也在网摘上网罗了一些有关“鞍点的定义””的相关资讯,希望姐妹们能喜欢,咱们快快来了解一下吧!

接上篇

理性原则

在每一个有限的、零和博弈中都有一个最终结果,我们可以计算一个玩家得到多少,另一个玩家失去多少。每个玩家都希望自己的收益尽可能大。

那么,这个游戏就是关于每个玩家都在知道对手想要将其利润最小化的情况下,试图将自己的利润最大化。为了达到他们的目标,他们甚至在混合策略的应用上也不退缩。冯·诺依曼定理保证了在这种情况下,每个玩家都能在对方达到目标的约束下达到自己的目标。

如果我的对手足够聪明,能够将我的成就最小化,那么我最大的希望就是到达鞍点,因为我的对手肯定会通过一种策略来抵消我的任何动作,从而达到均衡。与此同时,如果我的对手认为我也足够聪明,那么他也不能期望得到更多。理性原则认为我们每个人都知道我们的对手可以和我们一样聪明我们每个人都希望在对手处于最优状态的假设下获得尽可能多的利润。这意味着我们不指望我们的对手会犯错误。冯·诺伊曼定理表明,理性原则可以通过混合策略实现均衡。因此,这一原则不仅仅是一个诱人的乌托邦,而是一种现实的可能性。

冯·诺依曼博弈理论的基础是理性原则。数学博弈论假设每个玩家都遵循这一原则,因此导致均衡(鞍点)的混合策略被称为最优策略。在第二章中,符合另一个原则的混合策略被称为最优策略,即那些导致一个可能在任何意义上都不是均衡的共同最优策略。这两项原则之间的区别将在本章的最后提及。

蜗牛的例子也是基于理性原则,其本质也可以表述为:每一个具有完全信息的有限二人博弈都可以被重塑为蜗牛的两个自我之间的斗争。这两款游戏唯一的不同之处在于费迪南德和伊莎贝拉竞争的战场的性质以及各自的移动方式。

理性的玩家

在一个真正的马鞍形表面上,两名玩家的理性策略非常简单,我们甚至可以期待精神分裂的蜗牛看到这一点并采取相应行动。

然而,当蜗牛移动到更复杂的表面时,情况就不那么明显了。在博弈论的帮助下,我们人类能够计算出一只足够聪明的蜗牛采取最优混合策略所期望的移动概率。因此,至少在原则上,我们可以设计一个实验来检验这个理论。费迪南德和伊莎贝拉的智力和蜗牛一样有限,他们是否知道“最优混合策略”、“多维曲面”和“鞍点”等概念,这是有争议的。我们将在后面详细讨论这个问题,但这是一个数学博弈论绝对不感兴趣的问题。

当艾萨克·牛顿假设了一些完全不现实的物体,这些物体仅仅是点,有质量但没有维度时,我们对物质宇宙的理解有了一个巨大的飞跃。根据这个简化的模型,他推导出了一个数学公式,描述了这些物体在万有引力定律下如何相互吸引。这个抽象模型已经被证明是非常成功的,我们可以预测彗星的返回,或者向木星发射一艘飞船。类似地,博弈论诞生于冯·诺依曼假设的完全不现实的、完全理性的玩家,他们能够根据混合策略进行思考,能够在复杂的多维空间进行计算。有迹象表明,这一抽象模型是如此成功,有了它,个人和社会冲突和其他决策情况可以被描述、分析和解决。例如,通过数学博弈论,我们可以清楚地看到,优秀扑克玩家奇怪的、看似不合理的策略,他们的二阶和三阶动作和虚张声势,不仅在实践中是成功的,而且是完全理性的。

现实中不存在完全理性的玩家,就像现实世界中不存在完美无量纲的物体或完美几何的直线一样。这一事实并没有阻止冯·诺伊曼建立他的博弈论,牛顿奠定经典物理学的基础,或者欧几里得建立他的几何。后来,也有人检验了该理论能否很好地描述现象世界中远非完美的物体。人们不能期望这个理论完美地运作;但如果它能比以前所有的理论更好地描述现实,那么新理论将成为我们文化的一部分。

博弈论已经证明了它自己,例如,在某种意义上,可以为能够计算出最优混合策略的博弈编写不可战胜的计算机程序。例如,我们可以为计算机编写程序,使其玩上一章所描述的简化扑克游戏。玩真正的扑克的程序还不是不可战胜的,但是最好的扑克程序,那些基于数学博弈论的程序,是很难被打败的,一般的扑克玩家几乎总是输掉。

完全理性玩家的概念在技术上已经证明是卓有成效的,相关的概念系统已经进入了不同的科学领域,尽管它可以应用于现实生活中的人,缺乏完美的理性,只是在非常有限的范围内。这可以从以下事实中看出来:大多数人类扑克玩家会输给最好的程序,在简化的扑克游戏中,人们通常会输在X角色上。随着博弈论的成熟,人们可能会问,为什么如此有用和复杂的概念只能在有限的范围内应用于人。这个问题与在美元拍卖和囚徒困境中观察到的事实有关,动物世界往往比人类社会更有理性的游戏模式。

游戏的价值

在一个真正的鞍形表面的情况下,很容易告诉鞍中心的高度,因此一个简单的测量告诉我们,我们的精神分裂蜗牛将平静地休息在平衡的高度。对于混合策略,类似的鞍点高度几乎同样容易找到。然而,这些值是不确定的,因为如果两个蜗牛自身都采取混合策略,那么蜗牛将会停滞不前。在每一个具体的游戏中,休息的位置将取决于骰子在个人移动中的表现。然而,在某些混合策略的情况下,平衡点的期望高度是可以计算出来的。换句话说,我们可以计算出在同一平面上进行多轮游戏时休息处的平均高度。

鞍点的期望高度称为博弈值。这是参与人通过采用最优混合策略所能获得的利润(或损失)。在第5章分析的简化扑克游戏中,游戏的价值是每54轮20美元(玩家X看到的),也就是说,20美元/54 = 37美分每轮。

我们还可以通过计算游戏的价值来判断游戏是否公平。如果游戏的价值为零,也就是说,如果每个玩家都能够通过最优混合策略避免长期失败,那么游戏就是公平的。当X只被允许增加40美元的赌注时,我们简化的扑克变得公平了。

比赛的价值体现了当对手也轮到他击球时,他能赢多少。根据理性原则,我们的对手完全有能力利用他的机会。我们期待他这样做,为此我们已做好充分准备。

如果两个玩家的情况是完全对称的,那么游戏从一开始就是公平的。如果一个参与人可以通过混合策略长期获利,那么另一个参与人也可以通过相同策略获利。冯·诺伊曼定理保证,在这些情况下,双方都能确保他们的最终平衡在最坏的情况下为零。

标签: #鞍点的定义