博弈生存 - 1.基本术语（1）



前面已经指出，博弈论研究的对象是理性的行动者或参与人面对他人，如何选择策略或如何作出行动的决定的。理性的人是对现实的人的抽象，理性的人是指能够进行推理的人，而博弈中的理性的人是指能够运用推理能力使自己的目标最大化的人。“理性的”与“道德的”不是一回事，理性的与道德的有时会发生冲突，但是理性的人不一定是不道德的。我们在后面的章节中将阐述理性的人怎么会产生道德的行为。

博弈涉及哪些内容呢？

第一，一个博弈涉及至少两个独立的博弈参与人（player）。

一个博弈是一个活动，该活动至少有两个参与人，下文有时将参与人称为行动者。每个参与人通过行动，努力使自己的效用或利益最大化。但是，他的行动的好处或支付取决于另外的参与人。

“囚徒博弈”或“囚徒困境”是一个被广泛谈及和研究的博弈。两个共同作案偷窃的小偷被警察抓住，被带进警察局单独关押。他们面临的“政策”是“坦白从宽，抗拒从严”，具体的政策是：如果一方与警方合作，招认并供出自己与对方以前所做违法之事，而对方不招认，招认方无罪释放，不招认的另一方则会被判重刑10年；如果双方都与警方合作共同招认，各被判刑5年；而如果双方均不承认有罪，因警察找不到他们以前违法的证据，只能对他们的小偷行为进行惩戒，各被判刑3个月。这两个小偷如何作出选择？

在这个囚徒困境中，参与人为两个小偷。每个小偷的最后结果——是当场释放还是被判刑（10年、5年、3个月），不仅取决于他自己的决定，而且还取决于另外一个小偷的决定。

买卖活动是日常生活中的常见现象。我们知道，在买卖的交换行为中，买东西的人要尽量以低的价格买到，但是他是否能买到取决于卖者是否能卖；卖东西的人想以尽量高的价格将东西卖出去，但价格太高，买者不接受，因此卖东西的人能否将物品卖出去取决于买者。

囚徒困境是一个博弈，买卖的交易活动也是博弈。我们可看到，在任何一个博弈之中，至少存在两个理性的参与人，他们的利益是相关的，即他们每个人的利益受其他人的行动影响。

第二，博弈中行动者或参与人存在策略（strategy）选择的可能。

博弈论用策略空间来表示参与人可以选择的策略集。

赤壁一战，曹兵大败，曹操落荒而逃，在选择是走通往华容道的小路，还是选择大路时，曹操需要在两个策略之间进行选择：“走大路”还是“走小路”。曹操最终选择“走小路”。囚徒困境中的小偷面临着“不招认”还是“招认”的选择。

不同策略下的后果往往是有差异的，否则便不存在选择的必要。对每个参与人而言，如果没有不同选择的可能，理性的计算便是多余的，对自己的目标也就无能为力。从这个意义上来讲，我国改革开放走向市场经济，就是使得每个经济主体有选择的可能，这样人们才能发挥其理性的作用，使每个人的经济状况更好，而在计划经济下因没有可选择的余地，每个人的理性计算能力便无从施展。

第三，参与人在不同策略组合下会得到一定的支付（payoff）。

我们往往用支付矩阵来表示参与人在各种策略组合下的支付。这个方法简单，比用函数来表示直观、易于理解，当然它的缺陷是，它只能表示两个人的博弈结构。囚徒困境的支付矩阵为：

甲

乙不招认招认

不招认各被判刑3个月甲：当场释放

乙：被判刑10年，

招认甲：被判刑10年

乙：当场释放各被判刑5年

这个矩阵表示的是：若甲选择“招认”、乙选择“招认”，甲乙各被判刑5年；若甲选择“招认”、乙选择“不招认”，甲被当场释放，乙被判刑10年；若甲选择“不招认”、乙选择“招认”，甲被判刑10年，乙被当场释放；若甲选择“不招认”、乙选择“不招认”，甲乙均被判刑3个月。

我们再来刻画一交易过程的支付矩阵。在卖主甲和买主乙之间的“买-卖”博弈中——这是一讨价还价过程，通过讨价还价后一个价格被确定。在此价格下我们假定，卖者卖成后获得的效用为6，卖不成的效用为0；买者买成的效用为4，买不成的效用为0。而如果他们之间的交易不成功，无论是买主还是卖主都要等待并再次进行讨价还价，这需要成本。假定等待和讨价还价的成本均为1，则支付矩阵为：

乙

甲买成买不成

卖成 6，4 5，0

卖不成 0，3 0，0

这两个矩阵表明，在每个策略组合下参与人有一个收益值或支付值。