4.警察与小偷的故事——混合策略问题
纳什在《n人博弈的均衡点》这篇论文中,给出了均衡存在的简单证明,纳什说,在n个人的博弈中至少存在一个均衡,在这点上双方均不愿意先改变策略。这里的均衡点有可能是混合策略点。人们称它为纳什定理。
什么是混合策略?
我们来看一个混合策略的例子。警察部门负责一城市中某一区的治安。警察要对该区的A、B两地进行巡逻。假定该区有一群小偷,要实施偷盗。警察要防止这些小偷的偷盗,但因为设备有限,只有一部警车,警察只能一次在一个地方巡逻。而对于小偷而言,他们也只能去一个地方。假定A地需要保护的财产价值为2万元,B地的财产价值为1万元。若警察在某地进行巡逻,而小偷也选择了去该地,因警察在场,小偷无法偷盗该地的财物;若警察没有去某地巡逻而小偷选择了去该地,则小偷偷盗成功。警察怎么巡逻才能使效果最好?
一个明显的做法是,警察对A地进行巡逻,小偷去B地,这样,警察可以保住2万元的财产不被偷窃,而小偷的稳定收益为1万元。但是这种做法是警察的最好做法吗?警察有没有比这种策略更好的策略?
我们可以将警察与小偷之间的这个支付写成如下的支付矩阵。警察巡逻某地,偷盗者在该地无法实施偷盗,假定此时小偷的得益为0(没有收益),此时警察的得益为3(保住3万元)。
这个博弈也是常和博弈,它没有纯策略纳什均衡点,而有混合策略均衡点。这个混合策略均衡点下的策略选择是每个参与人的最优(混合)策略选择。
小偷
警察 袭击A地 袭击B地
巡逻A地 3,0 2,1
巡逻B地 1,2 3,0
对于这个例子,警察的一个更好的策略是,警察用掷骰子的方法决定去A地还是B地。假定警察规定掷到1-4点去A地,掷到5、6两点去B地,这样警察有2/3的机会去A地进行巡逻,1/3的机会去B地。
而小偷的最优选择是:以同样掷骰子的办法决定去A地还是去B地偷盗,如掷到1-4点去B地,掷到5、6两点去A地,那么,小偷有1/3的机会去A地,2/3的机会去B地。
此时警察与小偷所采取的便是混合策略。
假如按这种策略,我们看一下双方的收益。警察的期望得益是:7/3万大于2。警察按此办法比只巡逻A地的收益更高。
一旦警察采取混合策略,小偷也采取混合策略,其最优混合策略下的收益为2/3万元。小偷的收益比警察只巡逻A地的收益要低。
因为:当警察去A地巡逻时,小偷有1/3的机会去A地,2/3的机会去B地,此时警察去A地的得益为: 万元;当警察去B地时,同样,小偷有1/3的机会去A地,2/3的机会去B地,此时警察A地的得益为: 万元。
警察总的得益为: 万元。
同理,我们可得小偷的总的得益为2/3万元。
这里我们“让”警察和小偷掷骰子以确定去A地还是去B地,目的是要去A地和去B地之间确定一个概率分布,他们当然可用其他方式来确定这个概率分布。
宰割博弈中警察与小偷所用的混合策略,如同小孩子之间玩“剪刀-石头-布”的游戏时所用的策略。在“剪刀-石头-布”这样的游戏中,不存在纯策略均衡,对每个小孩来说,自己采取出“剪刀”、“布”还是“石头”的策略应当是随机的,不能让对方知道自己的策略,哪怕是倾向性的策略。如果对方知道你出其中一个策略的可能性大,那么你在游戏中输的可能性就大。因此,每个小孩的最优混合策略是采取每个策略的可能性是1/3。在这样的博弈中,每个小孩各取三个策略的1/3是纳什均衡。
由此可见:纯策略是参与人一次性选取的,并且坚持他选取的策略;而混合策略是参与人在各种备选策略中采取随机选取的。在博弈中,参与人可以改变他的策略,而使得他的策略选取满足一定的概率分布。
若博弈是零和博弈,即若博弈参与人为两人,一方所得是另外一方的所失,或者若博弈是常和博弈,即若博弈参与人为两人,一方所得的增加等于另外一方的损失,此时,对于任何一个参与人而言,都不可能有纯策略的占优策略。博弈参与人采取混合策略是合适的,均衡为混合策略均衡。如在当前的“反恐”博弈中,由于力量的有限,反恐方往往“更多地”将力量放在重点区域,如人口密集的大城市,“一定程度地”关注不太危险的区域,如人口稀疏的农村。这就是混合策略。而恐怖分子同样在玩混合策略:对攻击对象的选择是随机的,对攻击方式的选择也是随机的。
在竞争性的博弈中,该采取混合策略而不采取混合策略将会带来失败。田忌赛马是人人熟悉的故事。齐王与田忌赛马,但齐王的马平均来说要比田忌的马要跑得快,但田忌采纳了孙膑的策略,田忌用下等马对齐王的上等马,上等马对齐王的中等马,中等马对齐王的下等马。田忌以三比二获胜,赢了齐王。赛马是零和博弈,齐王的失败在于他使用了纯策略;若齐王使用混合策略,即每次比赛用马采取随机策略,不让田忌预先知晓,那么田忌获胜的机会必定大大小于齐王获胜的机会,齐王不会发生必输的结局。因此,齐王的错误在于没有使用混合策略。
应当说明的是,田忌赛马是著名的中国古代博弈故事。但其田忌获胜的博弈结果则不是博弈论所能够给出的。博弈论假定了每个参与人都是绝顶聪明的(理性的),博弈论给出的是,田忌和齐王都应采取混合策略,此时有一个混合策略均衡。田忌赛马从反面印证了纳什均衡的含义:若某个参与人主动改变均衡策略,他的收益会降低。这里,主动改变均衡策略而收益降低的参与人是齐王。