博弈生存 - 8.博弈案例（4）

4．警察与小偷的故事——混合策略问题

纳什在《n人博弈的均衡点》这篇论文中，给出了均衡存在的简单证明，纳什说，在n个人的博弈中至少存在一个均衡，在这点上双方均不愿意先改变策略。这里的均衡点有可能是混合策略点。人们称它为纳什定理。

什么是混合策略？

我们来看一个混合策略的例子。警察部门负责一城市中某一区的治安。警察要对该区的A、B两地进行巡逻。假定该区有一群小偷，要实施偷盗。警察要防止这些小偷的偷盗，但因为设备有限，只有一部警车，警察只能一次在一个地方巡逻。而对于小偷而言，他们也只能去一个地方。假定A地需要保护的财产价值为2万元，B地的财产价值为1万元。若警察在某地进行巡逻，而小偷也选择了去该地，因警察在场，小偷无法偷盗该地的财物；若警察没有去某地巡逻而小偷选择了去该地，则小偷偷盗成功。警察怎么巡逻才能使效果最好？

一个明显的做法是，警察对A地进行巡逻，小偷去B地，这样，警察可以保住2万元的财产不被偷窃，而小偷的稳定收益为1万元。但是这种做法是警察的最好做法吗？警察有没有比这种策略更好的策略？

我们可以将警察与小偷之间的这个支付写成如下的支付矩阵。警察巡逻某地，偷盗者在该地无法实施偷盗，假定此时小偷的得益为0（没有收益），此时警察的得益为3（保住3万元）。

这个博弈也是常和博弈，它没有纯策略纳什均衡点，而有混合策略均衡点。这个混合策略均衡点下的策略选择是每个参与人的最优（混合）策略选择。

小偷

警察袭击A地袭击B地

巡逻A地 3，0 2，1

巡逻B地 1，2 3，0

对于这个例子，警察的一个更好的策略是，警察用掷骰子的方法决定去A地还是B地。假定警察规定掷到1-4点去A地，掷到5、6两点去B地，这样警察有2/3的机会去A地进行巡逻，1/3的机会去B地。

而小偷的最优选择是：以同样掷骰子的办法决定去A地还是去B地偷盗，如掷到1-4点去B地，掷到5、6两点去A地，那么，小偷有1/3的机会去A地，2/3的机会去B地。

此时警察与小偷所采取的便是混合策略。

假如按这种策略，我们看一下双方的收益。警察的期望得益是：7/3万大于2。警察按此办法比只巡逻A地的收益更高。

一旦警察采取混合策略，小偷也采取混合策略，其最优混合策略下的收益为2/3万元。小偷的收益比警察只巡逻A地的收益要低。

因为：当警察去A地巡逻时，小偷有1/3的机会去A地，2/3的机会去B地，此时警察去A地的得益为：万元；当警察去B地时，同样，小偷有1/3的机会去A地，2/3的机会去B地，此时警察A地的得益为：万元。

警察总的得益为：万元。

同理，我们可得小偷的总的得益为2/3万元。

这里我们“让”警察和小偷掷骰子以确定去A地还是去B地，目的是要去A地和去B地之间确定一个概率分布，他们当然可用其他方式来确定这个概率分布。

宰割博弈中警察与小偷所用的混合策略，如同小孩子之间玩“剪刀-石头-布”的游戏时所用的策略。在“剪刀-石头-布”这样的游戏中，不存在纯策略均衡，对每个小孩来说，自己采取出“剪刀”、“布”还是“石头”的策略应当是随机的，不能让对方知道自己的策略，哪怕是倾向性的策略。如果对方知道你出其中一个策略的可能性大，那么你在游戏中输的可能性就大。因此，每个小孩的最优混合策略是采取每个策略的可能性是1/3。在这样的博弈中，每个小孩各取三个策略的1/3是纳什均衡。

由此可见：纯策略是参与人一次性选取的，并且坚持他选取的策略；而混合策略是参与人在各种备选策略中采取随机选取的。在博弈中，参与人可以改变他的策略，而使得他的策略选取满足一定的概率分布。

若博弈是零和博弈，即若博弈参与人为两人，一方所得是另外一方的所失，或者若博弈是常和博弈，即若博弈参与人为两人，一方所得的增加等于另外一方的损失，此时，对于任何一个参与人而言，都不可能有纯策略的占优策略。博弈参与人采取混合策略是合适的，均衡为混合策略均衡。如在当前的“反恐”博弈中，由于力量的有限，反恐方往往“更多地”将力量放在重点区域，如人口密集的大城市，“一定程度地”关注不太危险的区域，如人口稀疏的农村。这就是混合策略。而恐怖分子同样在玩混合策略：对攻击对象的选择是随机的，对攻击方式的选择也是随机的。

在竞争性的博弈中，该采取混合策略而不采取混合策略将会带来失败。田忌赛马是人人熟悉的故事。齐王与田忌赛马，但齐王的马平均来说要比田忌的马要跑得快，但田忌采纳了孙膑的策略，田忌用下等马对齐王的上等马，上等马对齐王的中等马，中等马对齐王的下等马。田忌以三比二获胜，赢了齐王。赛马是零和博弈，齐王的失败在于他使用了纯策略；若齐王使用混合策略，即每次比赛用马采取随机策略，不让田忌预先知晓，那么田忌获胜的机会必定大大小于齐王获胜的机会，齐王不会发生必输的结局。因此，齐王的错误在于没有使用混合策略。

应当说明的是，田忌赛马是著名的中国古代博弈故事。但其田忌获胜的博弈结果则不是博弈论所能够给出的。博弈论假定了每个参与人都是绝顶聪明的（理性的），博弈论给出的是，田忌和齐王都应采取混合策略，此时有一个混合策略均衡。田忌赛马从反面印证了纳什均衡的含义：若某个参与人主动改变均衡策略，他的收益会降低。这里，主动改变均衡策略而收益降低的参与人是齐王。