一场游戏的所有结果肯定不是唯一的,各个参与人分散决策采取不同的行动,会造成不同的结果。所谓的结果,实际上就是每个人选定一个策略后形成的状态。有些状态是不稳定的,就是说,在这个状态下,还有参与人试图通过改变其策略以增进其赢利;有些状态是稳定的,即该状态下没有任何人试图改变其策略来增进其赢利——或者说,任何一个参与人实际上都不可能在其他人不改变策略的情形下通过自己单方面改变策略来增进其赢利。这种稳定的状态被称为纳什均衡,它是以数学家约翰·纳什(John Nash, 1928— ,美国数学家,1994年获得诺贝尔经济学奖)的名字来命名的。因为纳什证明出,在有限个参与人参加的有限策略数目的对策中,一定存在着至少一个所有参与人的最优策略的组合,即稳定的均衡状态(这就是纳什均衡)。处于纳什均衡状态下,每个参与人都不能通过改变策略来得到更大的收益,所以谁也不存在改变现状的动力。
上述博弈的要素,构成分析博弈论的基础。在很多时候,我们可以很方便地用赢利表来表示一个博弈。比如,下面给出的就是“囚徒的困境”博弈的赢利表。
参与人2(囚犯B)
坦白 抵赖
参与人1 坦白 -8,-8 0,-10
(囚犯A) 抵赖 -10,0 -1,-1
赢利表的解读方法是这样的:最左边是参与人1(囚犯A),然后旁边列着他的两个可选策略(坦白,抵赖);最上边是参与人2(囚犯B),其下边列着他的两个可选策略(坦白,抵赖);四个单元格列出了博弈可能出现的四种情况,每个单元格中的数据,是参与人从博弈结果中得到的赢利,其中左边一个数字是参与人1的,右边一个数字是参与人2的。
在这样的赢利表中,寻找纳什均衡的方法是:先给定参与人1的每个策略,找出参与人2的最优反应——每一行上,在对应的参与人2最大的赢利数字下画一横线;给定参与人2的每个策略,找出参与人1的最优反应——在每一列上,在对应的参与人1最大的赢利数字下画一横线。读者可在“囚徒的困境”博弈上试试,画出来应跟上面的表中一样。如果一个单元格中两个数字下都被画上横线,说明该单元格对应的策略组合是纳什均衡,因为其中的每个策略都是参与人对彼此策略的最优反应。
纳什均衡最重要的意义在于,它可以帮助我们预测理性人进行博弈的结局。
“囚徒困境”
回到“囚徒困境”博弈例子。我们可以发现,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判10年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白可判免罪释放而抵赖却要被判刑1年。就是说,不管A坦白或抵赖,B的最佳选择都是坦白。反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。结果,两个人都选择了坦白,各判刑8年。在(坦白、坦白)这个组合中,A和B都不能通过单方面改变行动增加自己的收益,于是谁也没有动力背离这个组合,这个组合就是纳什均衡。
“囚徒困境”深刻地反映了个人理性和集体理性的矛盾。如果A和B都选择抵赖,各判刑1年,显然比都选择坦白各判刑8年好得多。当然,A和B可以在被警察抓到之前订立一个“攻守同盟”,但是这可能不会有用,因为每个人都没有积极性遵守这个协定;要是你坚决抵赖,那我正好利用你的抵赖积极坦白争取免去罪罚呢!所以,即使我要背叛你,一开始也可能会故意诱导你签署一个大家都不要背叛的协议。当然,你也不傻,我的这些想法你都想到了。事实上,我也很清楚你想到了我的想法;你也很清楚我很清楚你想到了我的想法;我很清楚你也很清楚我很清楚你想到了我的想法……这就是博弈的推理方式(见图3—1)。