按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
体行棋效果来看,如果一步棋能考虑到对手各种应手而依然成立,对手也运用同样法则找到应对,则可以说双方达成了“均衡”。
在经济学中,均衡(equilibrium)意即相关量处于稳定值。均衡是在分析均衡价格与数量的决定与变动的状况。供需均衡时会达到供需相等,市场出清,也就是在其他条件不变下,会维持不变的状况。
一物的供给量等于需求量的价格,就是其均衡价格,对应的数量就是均衡数量。这就是在供给线与需求线相交之处,也称为均衡点。比如在供需分析中,若某一商品的市场价格使得欲购买该商品的人均能买到,同时想卖的人均能将商品卖出去,此时该商品的供求达到了均衡。这个市场价格可称之为均衡价格,产量可称之为均衡产量。均衡分析是经济学中的重要方法。
在谈纳什均衡之前,我们先来看这样一个例子。这个例子对大家所熟知的“囚徒困境”做了一些微小的修改,结果却是发生根本的变化。
A和B是两个因盗窃而被抓的惯犯。警察局局长C正在调查该局管辖区域内的一宗悬而未决的银行抢劫案,并且他根据一系列的线索判定A和B是这桩案子的凶犯。
因为该局管辖地区治安一向混乱不堪,C的上级对C非常恼火,直接威胁C,如果银行案破不了,就要撤销C局长的职位,给予降级惩罚。C在上级的压力下不得不耗费大量时间、精力提审A和B。为了能够让两个囚犯认罪,C想让A和B明白,假如只有他们其中的一人坦白认罪则这个人可能受到的最严厉的惩罚是什么,但向他们遵守承诺,若两个人都坦白,则会从轻发落。
于是,这个警察局长C分别与A、B立下许诺:如果只有一个人坦白认罪,则认罪的一方会收到所有指控,会因抢劫银行而判无期徒刑,另一个人则不会再加刑罚。如果无人认罪,两个人都会因盗窃罪而判刑2年。如果两个人都坦白,则两个人都被判处有期徒刑5年。
这样,警察局长C给A和B构造了一个博弈。不妨假设,A和B都是极其精明的会打小算盘的自私自利不讲“江湖义气”的人,同时A和B被分别审查不能够进行沟通。
在这种情况下,A会在心里打起小算盘,他会想:如果选择坦白,那么B选择坦白时将判刑5年,B选择不坦白时将被判无期徒刑,因此选择坦白时最坏的打算就把牢底坐穿;若是选择不坦白,那么B选择坦白时将无罪释放获得自由,B选择不坦白时将判有期徒刑2年,因此选择不坦白时最坏的可能就是被囚禁5年。
两害相权,取其轻。因此在这种情况下,A必然会选择不坦白,同样的道理,B也会选择不坦白。这个时候,博弈达到了这样一种局面,这种局面就是纳什均衡(Nash Equilibrium)。
纳什均衡的思想其实并不复杂,在博弈达到纳什均衡时,局中的每一个博弈者都不可能因为单方面改变自己的策略而增加获益,于是各方为了自己利益的最大化而选择了某中最优策略,并与其他对手达成了某种暂时的平衡。
这种平衡在外界环境没有变化的情况下,倘若有关各方坚持原有的利益最大化原则并理性面对现实,那么这种平衡状况就能够长期保持稳定。
再简单一点说,一个策略组合中,所有的参与者面临这样的一种情况:当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略,他的收益将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。
由此可见,纳什均衡是一稳定的博弈结果。打一个比方,如果把一个乒乓球,放到一个光滑的铁锅里,不论其初始位置在何处,最终乒乓球都会稳定地停留在锅底,这时的锅底就可称为是一个纳什均衡点。
相反,如果锅是扣在地上的,那么一个乒乓球很难在锅底部位保持稳定,因为往任何方向的一点点移动,都会使球立刻离开锅底。这时的锅底部位就不是一个纳什均衡点了。
博弈的结果并不都能成为均衡。博弈的均衡是稳定的,则必然可以预测。纳什均衡的另一层含义是:在对方策略确定的情况下,每个参与者的策略是最好的,此时没有人愿意先改变或主动改变自己的策略。
在上面的“囚徒困境”变形的博弈中,A和B都不坦白就是一个纳什均衡,这对双方来说都是最优选择。同时在这个博弈中,其均衡对双方来说是全局最优的。当然博弈达到纳什均衡,并不一定是对参与者最有利的结果,更不意味着对整体而言是最有利的结果,比如“囚徒困境”的例子导致了整体的不利。
围棋与这个博弈的例子是有所不同的。上面的这个例子是A和B双方没有信息交换下的博弈,这就是博弈论中的静态博弈概念。
围棋则是对弈双方相继按照一先一后次序行动的博弈。对于一人一步的相继行动的博弈,每个参与者都必须向前展望或预期,估计对手的意图,从而倒后推理,决定自己这一步应该怎么走。
这是一条线性的推理链:“假如我这么做,他就会那么做———若是那样,我会这么反击”,后面的步骤依此类推。也就是说,你怎么走棋,完全取决于对手的上一招。这在博弈论上叫做“倒推法”。
在动态博弈中,存在明显的马太效应,也就是说凡是拥有较少的,连他仅有的那一点点也夺过来;凡是多的,就加给他,让他更多。比如在围棋上,就有“一招不慎,满盘皆输”的谚语,当然我们也要应用马太效应原理,在获得优势的情况能够保持优势,扩大优势,直至最后成功。
而在同时行动的静态博弈里,没有一个博弈者可以在自己行动之前得知另一个博弈者的整个计划。在这种情况下,互动推理不是通过观察对方的策略进行,而是必须通过看穿对手的策略才能展开。
要想做到这一点,单单假设自己处于对手的位置会怎么做还不够。即便你那样做了,你只会发现,你的对手也在做同样的事情,即他也在假设自己处于你的位置会怎么做。
因此,每一个人不得不同时担任两个角色,一个是自己,一个是对手,从而找出双方的最佳行动方式。与一条线性的推理链不同,这是一个循环,即“假如我认为对方认为我认为……”。
这样来看,定式是一系列纳什均衡的累计直至局部达到稳定的一种变化,直到一方认为可以根据形势选择任何变化或脱先而无局部受损之虞。由于定式是在大量实战基础上不断被验证并长期积累而成。
因此在动态博弈中,纳什均衡的要义在于:即使在对抗条件下,双方可以通过向对方提出威胁和要求,找到双方能够接受的解决方案而不至于因为各自追求自我利益而无法达到妥协,甚至两败俱伤。稳定的均衡点建立在找到各自的“占优策略”(dominant strategy),即无论对方作何选择,这一策略始终应优于其它策略。
从爱情故事谈起:优势策略
“原地高天,堪叹古今情难尽;痴男怨女,可怜风月债难偿。”
我们来先看欧亨利的小说《麦吉的礼物》描述的这样一个爱情故事。新婚不久的妻子和丈夫,很是穷困潦倒。除了妻子那一头美丽的金色长发,丈夫那一只祖传的金怀表,便再也没有什么东西可以让他们引以为傲了。虽然生活很累很苦,他们却彼此相爱至深。每个人关心对方都胜过关心自己。为了促进对方的利益,他们愿意奉献和牺牲自己的一切。
话说明天就是圣诞节了,小两口都是身无余钱。为了让爱人过得好一点,每个人还是想悄悄准备一份礼物给对方。丈夫卖掉了心爱的怀表,买了一套漂亮发卡,去配妻子那一头金色长发。妻子剪掉心爱的长发,拿去卖钱,为丈夫的怀表买了表链和表袋。
最后,到了交换礼物的时刻,他们无可奈何地发现,自己如此珍视的东西,对方已作为礼物的代价而出卖了。花了惨痛代价换回的东西,竟成了无用之物。出于无私爱心的利他主义行为,结果却使得双方的利益同时受损。
欧亨利在小说中写道:“聪明的人,送礼自然也很聪明。大约都是用自己有余的物事,来交换送礼的好处。然而,我讲的这个平平淡淡的故事里,两个住公寓的傻孩子,却是笨到极点,彼此为了对方,白白牺牲了他们屋檐下最珍贵的财富。”
从这段文字看,欧亨利似乎并不认为这小两口是理性的。且让我们暂时抛开爱情的温馨,单从利益的角度来解读。我们假定,他们每个人,有一个“毫不利己,专门利人”的偏好系统,毫不考虑自身利益,专门谋求别人的幸福。
这样,个人选择付出还是不付出,只看对方能不能得益,与自己是否受损无关。以这样的偏好来衡量,最好的结果自然是自己付出而对方不付出,对方收益增大;次好的结果是大家都不付出,对方不得益也不牺牲;再次的结果是大家都付出;最坏的结果是别人付出而自己不付出,靠牺牲别人来使自己得益。我们不妨可用数字来代表个人对这四种结果的评价:第一种结果给3分,第二种结果给2分,第三种结果给1分,最后那种给0分。
不难看出,无论对方选择付出,还是选择不付出,个人自己的最佳选择都是付出。然而这并不是对大家都有利的选择。事实上,大家都选择不付出,明显优于大家都选择付出的境况,这就达到了上文提到的纳什均衡。
实际上,这里的例子有一个占优策略均衡。通俗地说,在占优策略均衡中,不论所有其他参与人选择什么策略,一个参与人的占优策略都是他的最优策略。显然,这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。
因此,占优策略均衡一定是纳什均衡。在这个例子中,妻子选择不付出,也就是不剪掉金发对于妻子来说是一个优势策略,也就是说妻子不付出,丈夫不管选择什么策略,妻子所得的结果都好于丈夫。同理,丈夫不卖掉怀表对于丈夫来说也是一个优势策略。
再举个常见的例子:一名篮球前锋和队友在篮下面对着对方的一个后卫时,形成了二打一的局面,该前锋可以选择直接投篮,也可以选择传球给队友,根据经验,传球过人的成功率更大,那么传球就是该前锋的优势策略。即某些时候它胜于其他策略,且任何时候都不会比其他策略差。
如果一个球员具有这样一种策略,无论其他球员怎么做,这个策略都会高出一筹,那么这个球员就有一个优势策略。当然如果一个球员有这么一个优势策略,他的决策就会变得非常简单,只要直接采用该策略而完全不必考虑对手的应对策略。
还有一个要注意的问题是,采用优势策略得到的最坏结果并不一定比采用另外一个策略得到的最佳结果要好,这是很多博弈论普及书中容易出错的一个问题。应该说,对局者采用优势策略在对方采取任何策略时,总能够显示出优势。
比如就这个例子来说,就妻子来说,她采用不付出的策略,无论丈夫付出或不付出,妻子的不付出策略总是占有优势。丈夫的优势策略也是一样。但是,妻子选择不付出的最坏结果是1,选择付出的最好结果是3,很明显,妻子的优势策略得到的最坏结果并不比采用另外一个策略得到的最佳结果要高出一筹。
反之,劣势策略则是指在博弈中,不论其他参与人采取什么策略,某一参与人可能采取的策略中,对自己严格不利的策略,劣势策略是我们在日常生活中不可以选择的行动。劣势策略是与优势策略相对应的概念,笔者这里就不多做介绍。
房地产开发博弈、警察捉小偷与混和策略
实际上,在每个参与人都有优势策略的情况下,优势策略均衡是非常合乎逻辑的。一个优势策略优于其他任何策略,同样,一个劣势策略则劣于其他任何策略。
假如你有一个优势策略,你可以选择采用,并且知道你的对手若是有一个优势策略他也会照办;同样,假如你有一个劣势策略,你应该避免采用,并且知道你的对手若是有一个劣势策略他也会规避。
但遗憾的是,并不是所有博弈都有优势策略,哪怕这个博弈只有两个参与者。实际上,优势策略只是博弈论的一种特例。虽然出现一个优势策略可以大大简化行动的规则,但这些规则却并不适用于大多数现实生活中的博弈。
来看这样一个房地产开发博弈的例子。假定北京市的房地产市场需求有限,A、B两个开发商都想开发一定规模的房地产,但是市场对房地产的需求只能满足一个房地产的开发量,而且,每个房地产商必须一次性开发这一定规模的房地产才能获利。在这种情况下,无论是对开发商A还是开发商B,都不存在一种策略完全优于另一种策略,也不存在一个策略完全劣于另一个策略。
因为,如果A选择开发,则B的最优策略是不开发;如果A选择不开发,则B的最优策略是开发;类似地,如果B选择开发,则A的最优策略是不开发;如果B选择不开发,则A的最优策略是开发。这样就形成了一个循环选择。
根据纳什均衡含义就是:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你最好的策略。即双方在对方给定的策略下不愿意调整自己的策略。
这个博弈的纳什均衡点不止一个,而是两个:要么A选择开发,B不开发;要么A选择不开发,B选择开发。在这种情况下,A与B都不存在优势策略,也就是A和B不可能只要选择某一个策略而不考虑对方的所选择的策略。实际上,在有两个或两个以上纳什均衡点的博弈中,其最后结果难以预测。在房地产博弈中,我们无法知道,最后结果是A开发B不开发,还是A不开发B开发。
再来看这样一个警察捉小偷博弈的例子。某个村庄上只有一名警察,他要负责整个村的治安。小村的两头住着两个全村最富有的村民A和B,A、B分别需要保护的财产为2万元、1万元。整个小村某一天来了个小偷,要在村中偷盗A和B的财产,这个消息被警察得知。
因为分身乏术,警察一次只能在一个地方巡逻;而小偷也只能偷盗其中一家。若警察在某家看守财产,而小偷也选择了去该富户家,就会被警察抓住;若警察没有看守财产的富户家而小偷去了,则小偷偷盗成功。
一般人会凭着感觉认为,警察当然应该看守富户A家财产,因为A有2万元的财产,而B只有1万元的财产。实际上,对于警察的一个最好的做法是,警察抽签决定去A家还是B家。
因为A家的财产是B家的2倍,小偷自然光顾A家的概率要高于B家,不妨用两个签代表A家,比如如果抽到1、2号签去A家,抽到3号签去B家。这样警察有2/3的机会去A家做看守,1/3的机会去B家做看守。
而小偷的最优选择是:以同样抽签的办法决定去A家还是去B家实施偷盗,只是抽到1、2号签去A家,抽到3号签去B家,那么,小偷有l/3的机会去A家,2/3的机会去B家。这些数值是可以通过联立方程准确计算出的,笔者这里就不给出具体的数学计算过程了。
细心的读者会发现,警察捉小偷博弈与前面所举的两个博弈案例有一个很大的差别,就是用到了概率的知识,警察与小偷没有一个一定要选择某个策略的纳什均衡,而只有选择某个策略是多少几率的纳什均衡。
在博弈论中,可以选择出某个策略的纳什均衡,这个策略叫做纯策略。
用专业的话来说,所谓纯策略是指参与者在他的策略空间中选取惟一确定的策略。但至少存在一个混合策略均衡点。
所谓混合策略是指参与者采取的不是惟一的策略,而是其策略空间上的概率分布。这就是纳什于1950年证明了的纳什定理。而这个博弈没有纯策略纳什均衡点,而有混合策略均衡点。这个混合策略均衡点下的策略选择是每个参与者的混合策略选择。
最常见混和策略就是猜硬币游戏。比如在足球比赛开场,裁判将手中的硬币抛掷到空中,让双方队长猜硬币落下的正反面。由于硬币落下是正是反是随机的,概率应该都是1/2。那么,猜硬币游戏的参与者都是1/2的概率选择正与反,这时博弈达到混和策略纳什均衡。
再比如我们儿时玩的“剪、布、锤”就不存在纯策略均衡,对每个小孩来说,自己采取出“剪”、“布”、还是“锤”的策略应当是随机的。一旦一方知道另一方出其中某个策略的可能性增大,那么这个对弈者在游戏中输的可能性就增大。因此,每个小孩的最优混合策略是采取每个策略的可能性是l/3。在这样的博弈中,每个小孩各取三个策略的1/3是纳什均衡。
由此可见,纯策略是参与者一次性选取的,并且