第十三讲：博弈论PPT... · 2021. 1. 15. · 纳什（1928—2015）与博弈论 w《美丽心灵》(Beautiful Mind) w约翰·纳什20岁便在普林斯顿⼤学读博，他的博⼠论⽂Non-cooperative

第十三讲：博弈论

授课⼈：王栋副教授

主要内容

一、博弈论的定义

二、博弈论的基本概念

三、经典博弈

四、博弈与威慑理论

五、信号博弈

六、博弈案例

纳什（1928—2015）与博弈论

w 《美丽心灵》(Beautiful Mind)w 约翰·纳什20岁便在普林斯顿⼤学

读博，他的博⼠论⽂Non-cooperative Games只有短短27页。论⽂对非合作博弈进⾏了独到精辟的阐述。30岁时，纳什罹患妄想型精神分裂症，⼀直在患病过程中进⾏研究。1994年，因为在博弈论⽅面贡献突出，获诺贝尔经济学奖。

w 纳什在博⼠论⽂中发现了经典的“纳什均衡”

形式模型

w 形式模型（formal modeling): 是进⾏国际关系研究的重要途径，涉及对数学、图形和符号⽅法的使用。其原理是用形式语⾔代替自然语⾔，通过提供有关真实世界某⼀部分的简化图示，形式模型可以为理论描述、演绎和验证提供帮助。

w 形式模型功能主要在于为理论描述、演绎和验证提供帮助

w 就演绎⽽⾔，运用形式模型可以为研究者提供在经验世界⽆法观察到的景象。

w 譬如：对核威慑理论的研究

一、博弈论：定义

w 博弈论(Game Theory)：又称对策论，是⼀种以数学为基础，以研究对抗冲突中的最优策略为目标的⽅法。是常见的⼀种形式模型研究⽅法。

w 国际关系的过程和模式经常会表现出类似博弈的特征，因此运用博弈模型把某些适宜的国际问题特别是外交决策问题形式化，可以得到很多有益启示。

w counter-intuitive：超越直觉和经验

w ⼿中的牌越多越好？Not necessary

二、博弈论基本概念：发展史

w 1944：数学家诺依曼(John von Neumann)和数量经济学家摩根斯顿(Oskar Morgensten)共同完成《博弈论与经济行为》(Game Theory and Economic Behavior)，将二人博弈推广到n人博弈结构并将博弈论系统地应用于经济领域，从而奠定了这一学科的基础和理论体系。。


w 1950：纳什利用不动点定理证明博弈均衡点的存在（纳什均衡）。

w 70年代，海萨尼（John Harsanyi）和泽尔腾(Reinhard Selten)提出不完全信息环境下的博弈。

海萨尼


w 1994年，授予加利福尼亚⼤学伯克利分校的约翰·海萨尼（J.Harsanyi）、普林斯顿⼤学约翰·纳什（J.Nash）和德国波恩⼤学的赖因哈德·泽尔滕（Reinhard Selten）。以表彰这三位数学家在非合作博弈的均衡分析理论⽅面做出了开创性的贡献，对博弈论和经济学产⽣了的重⼤影响。

w 1996年，授予英国剑桥⼤学的詹姆斯·莫里斯（James A. Mirrlees）与美国哥伦比亚⼤学的威廉·维克瑞（William Vickrey）。前者在信息经济学理论领域做出了重⼤贡献，尤其是不对称信息条件下的经济激励理论，后者在信息经济学、激励理论、博弈论等⽅面都做出了重⼤贡献。


w 2001年，授予加利福尼亚⼤学伯克利分校的乔治·阿克尔洛夫（George A. Akerlof ）、美国斯坦福⼤学的迈克尔·斯宾塞（A. Michael Spence ）和美国哥伦比亚⼤学的约瑟夫·斯蒂格利茨（Joseph E. Stiglitz）。他们的研究为不对称信息市场的⼀般理论奠定了基⽯，他们的理论迅速得到了应用，从传统的农业市场到现代的⾦融市场，他们的贡献来自于现代信息经济学的核⼼部分。

w 2005年，授予美国马里兰⼤学的托马斯·克罗姆比·谢林(Thomas Crombie Schelling)和耶路撒冷希伯来⼤学的罗伯特·约翰·奥曼(Robert John Aumann），⼆者的研究通过博弈论分析促进了对冲突与合作的理解。

谢林（Thomas Schelling)w 谢林，1921年4月14日出⽣于美国

加利福利亚洲。他于1944年获加州⼤学伯克利分校学⼠学位，1948年获哈佛⼤学经济学博⼠学位。1977年他获得了弗兰克·E·塞德曼（Frank E. Seidman）政治经济学杰出贡献奖。其代表作包括《冲突的战略》（1960）以及《微观动机与宏观⾏为》（1978）。与传统上⼤量运用数学的博弈论不⼀样，谢林的主要研究领域被称为“非数理博弈”。瑞典皇家科学院2005年10月10日宣布，将2005年诺贝尔经济学奖授予有以⾊列和美国双重国籍的罗伯特·奥曼和美国⼈托马斯·谢林，以表彰他们在博弈论领域作出的贡献。

博弈的分类

博弈

合作博弈（可达成约束性协议）

非合作博弈

静态博弈（石头剪子布）

动态博弈（出拳有先后）

完全信息

不完全信息

二、博弈论基本概念

w 博弈方（player），也称博弈者、参与者：是在博弈中进行战略互动(strategic interaction)的利益主体，可以是个人、组织或者国家。

w 博弈论假定博弈参与者为理性行为体。

w 按照博弈者数目，博弈可分为：双人博弈、三人博弈、n人博弈等


w 策略集(strategy set)：对于每个博弈者来说，可供选择的所有策略构成了其策略集。策略集中的每个单⼀策略被称为⼀个纯策略（pure strategy)，⽽两个或多个单⼀策略的搭配使用则被称为混合策略（mixed strategy)

w 收益（payoff): 在博弈者按照所选策略开始博弈后，会使博弈形成⼀定的状态（结局）。在这种状态下，博弈者可以实现的效用被称为收益。不同的策略会给博弈者带来不同的收益。


w 博弈次数：如果博弈者只做⼀次策略选择（⼀轮博弈）即得出结果，被称为⼀次性博弈。重复多次选择（多轮博弈）得出结果，则被称为重复博弈(repeated game)。在重复博弈中，博弈者会避免采取短视⾏为，从⽽会对合作产⽣促进作用。

w 博弈次序：指博弈者进⾏策略选择的时间⽅式，包括同时⽅式和交替⽅式。

w --同时方式是一种静态博弈，指博弈者同时进行策略选择；

w --交替方式是一种动态博弈，指博弈者按照先后顺序或者轮流顺序进行策略选择。


w 信息结构：信息指的是博弈参与者的知识，特别是有关其他参与者的特征和⾏动的知识。如果每⼀个博弈⽅对所有其他博弈⽅的特征、策略集和收益函数都有准确的知识，那么就会形成⼀种完全信息博弈（complete information game)。如果个别或全部博弈⽅拥有不为其他博弈⽅所掌握的的知识即私有信息（private information)，那么就会形成⼀种不完全信息博弈（incomplete information game)


w 均衡（Equilibrium): 指的是这样⼀种策略组合，即它是所有博弈参与者的最优战略组合。博弈的均衡即为博弈参与者之间稳定的、可预测的互动⾏为模式。

w 纳什均衡（Nash Equilibrium, NE): 如果有两个战略（或多个战略，每个战略对应⼀个博弈者），⽽且每⼀个战略都是另⼀战略（或其他博弈者战略）的最优反应，那么这⼀战略组合就是纳什均衡战略。


w 博弈两种表达⽅式：标准式（矩阵）和扩展式（博弈树），矩阵适合于表述静态博弈，⽽博弈树则适合于表述动态博弈。

w 标准式：包含三个基本元素，博弈者、策略集和收益

w 扩展式包括下列因素：

w --博弈树；w --概率分布；w --信息集(information set)；

w --收益情况w --贝叶斯公式

二、博弈论基本概念：博弈树

w由节点和枝条构成，每一个节点表示博弈的每一个步骤，每一个枝条表示一种策略选择

二、博弈论基本概念：Nash Equilibrium

二、博弈论基本概念：零和博弈和正和博弈

w 什么是零和博弈（zero-sum game)？w --经济学家的打赌

w --A的收益，必然是B的损失；反之亦然

w --零和博弈的例⼦：体育比赛；股市w 什么是正和博弈(positive sum game)w 博弈双⽅的利益都有所增加，或者⾄少是⼀

⽅的利益增加，⽽另⼀⽅的利益不受损害

w 正和博弈的例⼦：寡头的价格垄断

二、博弈论基本概念：帕累托最优

w 帕累托最优（Pareto Optimality），这个概念是以意⼤利经济学家维弗雷多·帕累托的名字命名的，他在关于经济效率和收⼊分配的研究中最早使用了这个概念。它是指资源分配的⼀种理想状态，假定固有的⼀群⼈和可分配的资源，从⼀种分配状态到另⼀种状态的变化中，在没有使任何⼈境况变坏的前提下，使得⾄少⼀个⼈变得更好。帕累托最优状态就是不可能再有更多的帕累托改进的余地；换句话说，帕累托改进是达到帕累托最优的路径和⽅法。帕累托最优是公平与效率的“理想王国”。

帕累托改进的案例

w 来上课的同学加分，没来上课的同学不扣分，算不算？

w 经济发展过程中采用技术进步的⽅式“把蛋糕做⼤”，算不算？

二、博弈论基本概念：帕累托最优

如果经济体制的安排没有达到帕累托最优，那就说明还有帕累托改进（Pareto improvement）的余地。

右图是⼀个经济学中的production–possibility （⽣产可能性曲线）。在资源有限的情况下，如何有效分配资源进⾏⽣产以实现利润最⼤化是企业应考虑的问题。

途中的红点就是符合帕累托最优的Pareto frontier（帕累托边界）。问题：“均势”的权⼒分布算不算国际政治中的Pareto frontier？

二、博弈论基本概念：信念

信念（belief）：在博弈中，参与者的效用不仅依赖于最终的物质支付，还取决于参与者所持信念引发的⼼理状态。

w信念有两个渠道影响参与者⾏为: （1）对⼿的信念对自身策略偏好的影响（宗教信仰）（2）是信念对终点偏好直接⼼理的影响。（破釜沉⾈）

信念与“黑手党”（Mafia）在60年代美国的⿊⼿党组织之所以顶住美国司法系

统的打击，“信念”⽂化是很重要的因素。⿊⼿党成员被捕⼊狱后⼤多不会把他们的Boss供出

。这主要是由于⿊⼿党内部的组织“⽂化”：凡⼊狱者，其家⼈都会受到组织的良好照顾；凡告密者，其家属也有可能受到株连惩罚。因此，很多“打⼿”被捕后坚定地选择不招供、不配合策略。“囚徒困境”在面对⿊⼿党时略有失灵。

二、博弈论基本概念：贝叶斯公式

w 英国数学家贝叶斯（Thomas Bayes）在统计学领域提出“逆概率”概念并推导出“贝叶斯公式”。又称贝叶斯定理、贝叶斯规则是指当分析样本⼤到接近总体数时，样本中事件发⽣的概率将接近于总体中事件发⽣的概率。

w 顺概率：⼀个箱⼦里放了5个红球5个白球，抽出红球的概率是多少？

w 逆概率：如果不知道箱⼦里有多少红球和白球。如果我们随机抽出了5个红球，3个白球，如何推算箱⼦里最有可能有多少红球或白球？这就是“逆概率问题”

w 计算逆概率问题，就需要贝叶斯公式

二、博弈论基本概念：

逆概率算法

二、博弈论基本概念：重复博弈

w 重复博弈（repeated game）：同样结构的多次博弈，它是动态博弈的⼀种，包括完全信息和不完全信息条件下、有限次数和⽆限次数的四种情况。影响重复博弈的结果的因素是博弈次数和信息完备性。

w 无限重复博弈：如果博弈无穷次，博弈双方的合作非常稳固，因为背叛永远会招来报复。

w 如果博弈次数无限，选择相互合作是囚徒困境中博弈方的最佳选项。

w 国际机制：提供多次重复博弈的平台，降低“背叛”（defection）的概率

“针锋相对”策略 (“tit for tat”)w 实验：阿克塞洛德(Robert

Axelrod)用电脑模拟了⼀个⽆穷次的囚徒困境博弈序列，请参赛者提交最佳对抗策略（计算机程序）。在所提交的策略中，针锋相对策略的表现最好。

w “策略”：采取该策略的⼈首先选择合作，然后继续选择合作直到有对⼿选择背叛。如果发现对⼿背叛，那么就在下⼀回合以背叛作为还击（tit for tat）。

w 结论：在多次重复博弈环境下，针锋相对策略就是演化稳定的策略，秩序不需要⼀个外部权威也可以维系。

信息不对称博弈

假设你刚刚来到⼀个城市，想买⼆⼿自⾏车，你与卖车的⼈之间对旧车质量信息的掌握是不对称的。卖家知道它的自⾏车的真实质量，但你只知道好车最少要卖300，坏车最少要卖100.你对车的质量不甚清楚。你先开价，如果卖家接受就成交，否则交易失败。

典型的、理性的消费者既想买下车，又不想出价过⾼，因此⼀般开价200.

结果是，⼆⼿车市场上的自⾏车的平均质量降低，只有低质量的自⾏车成交。质量⾼⽔平的自⾏车被排挤出市场。

信息不对称博弈

美国经济学家乔治·阿克洛夫（George A. Akerlof ）提出的“柠檬市场理论”，认为信息不对称导致资源不能够得到最优配置，并且不能实现公共利益的最⼤化。获2001年诺贝尔经济学奖。

阿克洛夫的这个发现启发很多经济学家，⼤家又相继发现许多柠檬市场：

经济学家Spence发现⼈才市场其实也是个柠檬市场。由于信息不对称，雇主愿意开出的是较低的⼯资，除了平庸的“柠檬”外根本不能满⾜精英⼈才的需要，结果出现“劣币驱逐良币”的现象。

斯蒂格利茨（Joseph E. Stiglitz）发现信贷市场也是个“柠檬市场”，因为市场不对称，贷款⼈只好确定很⾼的利率，结果好的本分的企业退避三舍，不想还贷的企业则蜂拥⽽⾄。

信息不对称博弈——拍卖市场

w 卖出最⾼价是拍卖市场卖⽅的愿望。但竞拍者可能说假话。价值1万的古董，如果在竞价时第⼆名出8000，很有可能有⼈只出8001就可以买下。

w 经济学教授运用信息经济学原理设计出新的拍卖机制：让每个⼈把愿意出的价格写在纸上装⼊信封交给主

持⼈，所以信封打开后，出价最⾼的⼈得到古董，但实际付的价格是出价第⼆⾼的。

在这个制度下，每个⼈都会如实报价。设想有⼀个⼈的实际评价是1万，如果他出价1万，第⼆最⾼出价9900，他得到100的净剩余。如果出价9800，则净胜余为零。在这种制度下，说实话比说假话更好！

三、经典博弈1：囚徒困境（Prisoner’s Dilemma)

三、经典博弈1：求解囚徒困境

w 解决囚徒困境，在于解决“背叛合作”（defecting from cooperation)的问题

w 1.把单次囚徒博弈变为重复囚徒博弈（repeated PD game)

w 2.设计制度（devising institutions)w 制度的作用：1）降低交易成本；w 2）增加透明度

18731

文本框

在胆小鬼博弈中，我们假定双方可以采取的策略只有 2 种：死磕到底（用Dare或D表示）或者认怂（用Chicken或C表示），双方（甲、乙）采取不同策略的收益可以用下表来表示：

经典博弈2：胆小鬼博弈（chicken game)

三、经典博弈2：如何在胆小鬼博弈中获胜？

w策略1：把自己的手绑起来（Tying your own hands）

w策略2：以可见的方式扔掉方向盘（Throw away the steering wheel in a visible manner)

w策略3：证明你的疯狂/冒险性(demonstrate your “insanity” or recklessness)

三、经典博弈2：史上玩的最大的“胆小鬼博弈”——古巴导弹危机

w 苏联的边缘博弈选项：

l 派出舰队准备冲破封锁

l 击落美国派往古巴的侦察机

l 逼近古巴的潜艇核导弹做好发射准备

在边缘博弈中，最重要是要让对方相信自己的恐吓绝不是虚张声势

三、经典博弈2：肯尼迪的博弈策略

1、向赫鲁晓夫暗示他⽆路可⾛，只能采取封锁古巴的策略。（Tying your own hands）

2、向赫鲁晓夫暗示，尽管肯尼迪本⼈不想打核战争，但他不⼀定能控制国防部和军⽅的强硬派的想法。（Throw away the steering wheel in a visible manner）

3、美国战略司令部以明码发电，要求做好⼀级战备

4、危机结束后，肯尼迪特别授意美国媒体不要在⾔辞上羞辱和刺激苏联。（给对⽅留有余地，不给对⽅⽆路可⾛的机会）

三、经典博弈3：猎鹿博弈(Stag Hunt）

古代的一个村庄有两个猎人。当地的猎物主要有两种：鹿和兔子。如果一个猎人单兵作战，一天最多只能打到4只兔子。只有两个猎人一起去才能猎获一只鹿。从填饱肚子的角度来说，4只兔子能保证一个人4天不挨饿，而一只鹿却能使两个人吃上10天。——卢梭：《论人类不平等的起源和基础》

三、经典博弈4：性别战（battle of the sexes）

一男一女热恋中，想一起去看电影。男生想看《美国队长3》，女生喜欢《疯狂动物城》。但他们又很想“在一起”。以下是他们的“支付矩阵”

2，1 0，0

0，0 1，2

“Zootopia”“美队3”

Zootopia

“美队3”

在这个矩阵中，有两个红⾊“纳什均衡”。究竟哪⼀个会发⽣？要依据具体情况如：l谁更爱谁？l先⾏优势（first-move advantage）：谁先买了电影票

女

男

三、经典博弈5：最后通牒博弈(The Ultimatum Game)

w 在这种博弈中，⼀名提议者向另⼀名响应者提出⼀种分配资源的⽅案，如果响应者同意这⼀⽅案，则按照这种⽅案进⾏资源分配；如果不同意，则两⼈都会什么都得不到。

你宁愿接受不公平的分配还是让他承受道德谴责？

四、博弈与威慑理论

w什么是威慑？在博弈中通过威胁使用武力进行惩罚，迫使对手不敢采取行动改变现状。

w成功的威慑战略（3C)：--clarity；

--capability；--credibility

四、博弈与威慑理论威慑的博弈树：古巴导弹危机

CH(苏联)

Status Quo D(美国)

Concession

CH

War Backing Down

Not Challenge Challenge

Not ResistResist

Press Back Down

谢林与核威慑理论

w 上世纪60年代，美苏两国海基核武器和陆基核武器都具有“二次打击”能力。“二次打击”使先发制人的成本过大。

w 美国以核打击的威慑来阻止苏联对西欧的入侵，但苏联的大规模核报复会使美国的威慑信度降低。如果核武器失去了使用的现实条件，威慑就是空洞的。

w 谢林的回答：

威慑来源于：The mutual fear of surprise attack谢林认为：第一次核打击的伤害远大于二次打击，因此，双方都害怕对方“先动手”而更愿意自己“先动手”。正是害怕对方“先动手”的恐惧使核战争具有可能性，核威慑具有真实性。

中美核战略

中国的传统核战略属于维持可信的“核报复”能力（二次打击能力建设），以维持中美核力量的弱势平衡。

美认为可对其本⼟形成核威慑的东风5洲际导弹

核潜艇的战略巡航和⼭地核⼯程都是⼆次核打击的有效⼿段

中美核战略

w 但随着美国反导能力的快速提升和对常规全球快速打击武器（Conventional Prompt Global Strike， CPGS）的研发，中美之间的核威慑平衡正在受到削弱。

Illustration of Hypersonic Test Vehicle (HTV) 2 during re-entry

中美核博弈

在美国追求绝对核安全和优势的背景下，中美核⼒量的差距有可能拉⼤，在此背景下，中国应采取何种策略既可以应对美国不断扩⼤的核能⼒，又可以以最小的成本（不劳民伤财）实现对美assured retaliation？

中国的可能选项：

w彻底放弃 “不首先使用”原则？w⼤规模升级核武库，与美国军备竞赛？

w明确宣布美国CGPS打击我核武设施即为核战争？

中美核博弈

w 中国的现实对策：（1）坚持“不首先使用”原则，但有限度地向美国传递其“不首先使用”模糊的前提条件（limited strategic ambiguity）。（美国军⽅⼀直想知道：如果美军运用CPGS打击中国的核设施，中国是否会采取核报复措施）

（2）温和地升级中国的核武库，以求在威慑能⼒上不致于落后美国太远。增加核弹突防能⼒（中国近期对东风-5的技术改进，多弹头和诱饵），适当增加中国⼆次打击的⽅法（核潜艇战略巡航），增加中国的CPGS技术（⾼超音速导弹试验），增加反导能⼒（陆基中段反导技术测试）。

双重威慑——美国对台战略模糊

w 什么是双重威慑（dual deterrence）？w 美国对台政策：以“战略模糊”为指导思想，通过“一个中国政策”在两岸之间进行“对冲 /两面下注”

w 对大陆台湾采取“双重约束”，既对台湾做出模糊的防务承诺，又限制台独挑动台海局势的行为。

w 美台《共同防御条约》对台防御义务是否包括离岛( offshore islands) 的问题（战略模糊）

w “acknowledged”与“一个中国”原则（战略模糊）w 《与台湾关系法》：美国是否参战及在什么条件下会协防台湾（战略模糊）

双重威慑——美国钓鱼岛战略

w什么是双重威慑？w “双重威慑”为美国在钓鱼岛争议上的常用手法，希望保持模糊让中日猜测美国的最终意图以达到威慑双方的作用。

w 一方面在岛屿主权归属上不持立场，另一方面多次确认《日美安保条约》适用，通过采取所谓“模糊战略”以期望达到对中国和日本的“双重威慑”来避免事态升级。

双重威慑

l 模糊性与透明性对威慑效能的影响

军事透明度低会一直有利于保持威慑力吗？透明度高的好处

l 观众成本（audience cost）与威慑效能《反分裂国家法》与观众成本

l 威慑理论的新思考

（1）“延伸性强制外交”（extended coercive diplomacy）：即当对手有一个结盟的大国时，如何进行强制外交

（2）我们尚缺乏从战略高度阐述我们涉海斗争的理论和论述.

“合作性威慑”（cooperative deterrence)“合作性威逼”(cooperative compellence)

五、信号博弈 (Signaling Game)

w 博弈本质上是一种沟通(communication）w 在信号博弈中，信号发送者A掌握着信号接收者B不知道的信号。A所发出的不同信号可能影响B的选择，从而影响整个A与B的博弈情况。

w 信号博弈与“廉价谈说”（Cheap Talk）w 信号博弈过程中的成本收益取决于信号发送者的信号情况。因此，当信号发送者与接收者有着一样的结果期望时，廉价谈说有利于解决如何通过有效的信号沟通来实现博弈完全信息条件和收益最大化。

高昂信号（costly signal)与美苏战略再保证

--美苏两国不断进⾏外交沟通，通过发出⾼昂的信号(too costly that insincere type will not mimic)，reveal your own type, 通过信号博弈和战略再保证使对⼿相信妥协的收益⾼于对抗的成本，美苏达成削减战略武器协议，跳出安全困境。--廉价谈说(cheap talk)：--恋爱中的甜言蜜语—政治家的爱好和平的宣言；

信号理论的起源

w 自然界中，动物通过高昂的信号成本保持信号所传递的内容。如：羽毛不够鲜艳的鸟类自然就因为不付出成本，被排除在雌鸟视野之外。另外，炫耀羽毛鲜艳同样会吸引天敌，但是羽毛这么鲜艳还能躲避天敌的捕食存活下来，这种信号传递的内容本身更是可以进行成功的繁殖的证明。

w 为什么要取得学历证书？为什么要考证？

使有关个人能力的私人信息(private information)变得可信

Bluffing (虚张声势）

w黔驴技穷：信息不对称时如何博弈？

双方老虎（信息多）老虎（信息少）

毛驴（信息多）斗智斗谋的过程逃跑

毛驴（信息少）被老虎吃掉相持状态

毛驴刚入黔，和老虎都是信息的弱者，但在信息不对称的情况下，毛驴自己没有主动获取信息，而向老虎暴露了太多信息，造成“被老虎吃掉”的博弈结果。

对于毛驴来说，最佳的博弈选择是：（1）虚张声势，释放假信息（2）在行动之前尽可能掌握老虎的信息（3）狐假虎威

中美围绕南海造岛的信号博弈

w a little bit of bluffingw a lot of signaling, (white paper; WSJ story)w a little bit of deterrencew What is the costly signal?w孙建国副总长在2016SLD讲话w end game?

六、博弈案例1：国际油价与沼泽地困境 (The Swamp Dilemma)

w油价下跌原因的猜想：w 以沙特为核心的OPEC在油价下跌时公开拒绝减产，意在打击美国的页岩油企业。从2014年6月油价下跌以来，美国页岩油企业的股价大部分被腰斩，Sandridge、Goodrich等巨型页岩油公司股价已跌掉了80%

w 与此同时，美国页岩油气企业也毫无惧色，继续开足马力增产增收。在油价大跌的去年12月上旬，美国日产石油竟达到912万桶(10月还只有890万桶)，创造了1983年以来的最高日产纪录。

国际油价与沼泽地困境(The Swamp Dilemma)

w 美国与沙特都想通过压低价格，夺取市场份额。二者在价格战中都抱有“只能赢不能输”的决心。

w 时间越久，低价战争使沙特与美国的损失越来越大，但先让步（抬高油价）的一方将承受失去市场的风险。

w 因此，双方都抱着“看谁能坚持到底”的心态，在低价沼泽中越斗争陷得越深，陷入“沼泽地困境”

滴滴、快的与沼泽地困境

“我们支持滴滴，阿里巴巴支持快的，我们就像打仗，像武林高手一样（笑），一天大概亏损2000万，再炒到3000万，我也跟，最高一天亏4000万，谁也不敢收手，一收手就前功尽弃了，内伤死掉了（笑声）。后来跟马云沟通，最后在很多资本的撮合下合并了（笑声）。”

马化腾@香港大学2015-6-1

“更夫”与博弈w 电影里、小说里常有这样的段⼦：漆⿊的夜晚⼀个更

夫拿个锣或者⽵筒⼀直不断地敲，告诉⼤家“平安⽆事”。锣声⼀停或者锣声⼀乱，就是警报来了。⼤家需要爬起来，拿起武器，捕盗抓贼或是抵御来突袭的敌兵。

问题：打更为什么要⼀直不断地敲锣呢？为什么不能倒过来，更夫⼀直静静地观察，看到危险再敲锣呢？这样更夫省事，大家清静呀。

“更夫”与博弈

平常不敲锣固然节省⼒⽓，但危机出现后，更夫未必有机会敲锣。

⼊侵者的⼀个策略是首先制服更夫，防⽌更夫发出警报。如果更夫在安全的时候⼀直敲锣，受到攻击的时候，锣声就会中断，那么，锣声中断就成了警报，唤起⼤家做出反击。

“更夫”与核反应堆核反应堆在运行的时候，其中的核材料和产物会发热，因此，

需要冷却系统把热量传导出来。有时候反应堆由于某些原因，会停止运行。这时，反应堆中的裂变产物会继续释放热量，因此，冷却系统需要继续运行。一些重大险情不仅迫使反应堆运行停止，而且也会迫使冷却系统运行停止。这时，反应堆内部还在继续发热，如果得不到外部的冷却，就会出现堆芯融毁、放射性物质泄漏等严重事故。因此，核反应堆都会装配备用的应急冷却系统，一旦反应堆原有冷却系统停止运行，应急冷却系统就可以对堆芯进行冷却。

应急冷却系统可以是一组备用抽水机。在出现险情的时候，原有冷却系统如果不能工作，备用抽水机就将冷水源源不断地抽进反应堆的冷却管道，达到冷却效果。这种做法就像更夫在平安的时候不敲锣，出了险情再敲锣。如果来不及敲锣，就无法做出应急反应了。

福岛核事故就是这么发生的。海啸中，反应堆停止运行了，而

备用抽水机却被海水淹了，无法抽水冷却，只好眼睁睁地看着堆芯融毁，放射性物质泄漏。

“更夫”与博弈论

更夫策略告诉我们，不能在出现险情之后再敲锣。出了险情之后，你可能

没有机会再敲锣了！

没有机会再敲锣了！没有机会再敲锣了！

应该把⾜够量的备用冷却⽔抽到⾼处，备用冷却⽔与冷却管道连通。正常情况下，原有冷却系统在运⾏，提供压⼒，持续不断地堵住备用冷却⽔流⼊冷却管道（不断地敲锣）。⼀旦出现险情，原有冷却系统如果停⽌运⾏，就⽆法提供⾜够的压⼒堵住备用冷却⽔（停⽌敲锣），备用冷却⽔就可以凭借自身重⼒自动流⼊冷却管道（应急反应）。这是新型反应堆普遍采用的应急冷却机制。

“智猪博弈”与纳什均衡“智猪博弈”由约翰·纳什

于1950年提出。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会首先付出2个单位的成本，若大猪先到槽边，大小猪吃到食物的收益比是9∶1；同时到槽边，收益比是7∶3；小猪先到槽边，收益比是6∶4。那么，在两头猪都有智慧的前提下，小猪会选择按按钮还是等待？。

“智猪博弈”与纳什均衡

用博弈论中的报酬矩阵可以更清晰的刻画出小猪的选择：

“智猪博弈”与纳什均衡

矩阵中可以看出，当⼤猪选择⾏动的时候，小猪如果⾏动，其收益是1，⽽小猪等待的话，收益是4，所以小猪选择等待；当⼤猪选择等待的时候，小猪如果⾏动的话，其收益是-1，⽽小猪等待的话，收益是0,所以小猪也选择等待。综合来看，⽆论⼤猪是选择⾏动还是等待，小猪的选择都将是等待，即等待是小猪的占优策略。反观⼤猪，明知小猪不会去踩踏板，但是去踩踏板总比不踩强，所以只好亲历亲为了。

田忌赛马——非完全信息动态博弈

“忌数与齐诸公⼦驰逐重射。孙⼦见其马⾜不甚相远，马有上、中、下辈。于是孙⼦谓田忌曰 : “君弟重射，臣能令君胜。”田忌信然之，与王及诸公⼦逐射千⾦。及临质，孙⼦曰 : “今以君之下驷彼上驷，取君上驷与彼中驷，取君中驷与彼下驷。” 既驰三辈，⽽田忌⼀不胜⽽再胜，卒得王千⾦。于是忌进孙⼦于威王。威王问兵法，遂以为师。”——《孙⼦吴起列传第五》，《史记》卷六⼗五，中华书局，2007 年版。

田忌赛马——非完全信息动态博弈

（1）孙⼦见其马⾜不甚相远，说明孙膑看到：齐威王和田忌的马根据速度划分各有上、中、下三种等级各⼀匹，其中田忌的马比同⼀等级齐王的马跑得慢，但比齐王低⼀级的马跑得快。假如齐威王的马按速度由快到慢分为 A1、A2、A3，田忌的马由快到慢分为 B1、B2、B3，那么这六匹马由快到慢依次是 A1、B1、A2、B2、A3、B3。（2）“及临质”（等到快要开始的时候）很重要！孙膑献计田忌改变马的出场顺序这⼀情况并不为齐威王所知。

田忌赛马——非完全信息动态博弈--在 “田忌赛马”博弈中，参与者集合 N = ﹛ 0，

1， 2 ﹜， 0代表自然。H是全历史集合，表示所有可能的⾏动序列﹛上中下，上下中，中上下，下上中，下中上，中下上﹜，即共有六个可能的⾏动。在此博弈中，由于是齐威王先⾏动，所以⽆论马出场顺序如何，孙膑总是可以帮助田忌，以下等马对上等马，以中等马对下等马，以上等马对中等马(顺序⽆先后)，这样如果把三场全胜看做 “1”的话，那么田忌总有“2/3”的收益。也就是说田忌有100%的可能获得2/3的收益。齐威王由于过分自信或者智商不⾼，未能识破此中⽞机，所以败下阵来。

--后⾏优势（second move advantage）

--齐威王如何反败为胜？

科幻小说《三体》中的博弈论w 黑暗森林威慑（Mutual

Assured Destruction)背景：宇宙社会学的假设

w 1、以宇宙的⼴袤程度看，⼈类是唯⼀智慧⽂明的概率极低，⽽⼈类为什么没有发现其他⽂明？因为其他⽂明对⼈类“隐身”。宇宙中可能存在⽆数的⽂明，其技术和⽂明发展程度不⼀。——宇宙社会

w 2、在宇宙的⼤尺度下，⽂明在彼此眼中只是⽆数光年外⼀个暗弱的光点（太阳系只是⽆数光点中的⼀个），没有任何细节特征。——宇宙的⿊暗森林状态及其基本数学结构

w 3、在这种情况下，⼀旦有⽂明“暴露”，则成为其他⽂明的打击目标。宇宙是有限的，⽂明的扩张⽆限，⽂明以⽣存为第⼀准则。为避免⽂明扩张的威胁，提前对暴露者进⾏清除。——⿊暗森林⽣存法则

w 4、基于成本考虑和暴露危险，⿊暗森林打击的发起者不对目标进⾏近距离探测——⿊暗森林打击的随意性

w 黑暗森林是所有文明都在隐藏自己的宇宙。w 视频连接http://tv.sohu.com/20150918/n421453699.shtml

http://tv.sohu.com/20150918/n421453699.shtml

黑暗森林的数学结构

文明的技术差距：水滴与地球舰队的相遇

终极威慑在了解了⿊暗森林法则后，⼈类通过威胁“暴露”三体

⽂明，与三体⽂明建立起威慑。（由于三体星系与太阳系的近距离以及早期⼈类与三体⽂明的通信记录，⼈类在暴露三体⽂明的同时，也将暴露自⼰）

w威慑操作：通过23个引⼒波发射天线发射三体世界坐标导致两个世界毁灭

w威慑者：⼈类；被威慑者：三体⽂明w威慑控制者：掌握发射开关的⼈或组织

w威慑目标：三体世界放弃侵略并向⼈类世界传递技术

w以威慑者和被威慑者同归于尽为后果进⾏的威慑，被称为终极威慑。

⿊暗森林威慑的失败，被三体⽂明隐藏的引⼒波宇宙⼴播的能⼒

1、把23个发射台（引⼒波发射天线）减少到4个，不是问题的本质2、不在于数量，⽽在于部署的位置w4个发射台中，只有⼀艘位于太空——“万有引⼒”号飞船

w如果有位于太空的23艘“万有引⼒”号飞船，部署于太阳系不同位置，这样即使三体⽂明发动突然袭击也很难全部消灭，在⼀次打击下⽣还的飞船，保留“⼆次”威慑能⼒，可以降低⼀次打击发⽣的概率。

w同理，MRSV(multiple re-entry vehicle), 核潜艇的出现意味着第⼆次核打击能⼒的⼤⼤增加（增加在敌⼈第⼀次核打击之后的存活率），其他办法还有加固固体发射井（not very effective)。

w没有部署更多的“万有引⼒”号飞船，是因为太强⼤掌握⼈类的命运，增加飞船数量就增加了飞船落⼊意图不轨之⼈⼿中的概率。

3、执剑⼈w在缺乏“⼆次”威慑能⼒情况下，执剑⼈决定了终极威慑的威慑度（如果被威慑者不接受威慑目标，威慑操作被触发的可能。）w个⼈和⼈类⼤群体威慑度的不同？

三体文明被黑暗森林摧毁之后，茶道谈话罗辑问智子（三体世界的代表）：三体世界显现某种危险特征，

那么，是否存在某种安全特征，或者叫安全声明，可以向宇宙标明一个文明是安全的，不会对其他世界构成任何威胁，进而避免黑暗森林打击吗？

w--胆小鬼博弈中How do you do that?Re-assurance game再保证博弈

w-声明派：问题是cheap talk，廉价谈说，how can you convince othersw-自残派：主动退出太空时代和信息时代，建立一个低技术社会，19世纪末的电气和内燃机社会，甚至是农耕社会，低技术声明

w--costly signal：美苏冷战can be conceptualized as a MAD game，how do you end that 终结时，苏联的costly signal，从东欧撤军，

w--极端的：智力自残，使用某种药物或脑科学技术降低人类的智力，并在基因水平把这种低智力在遗传上固定下来，弱智声明

w 如何发布宇宙安全声明？

复习与思考

1、博弈论及其相关概念、分类

2、经典博弈

3、博弈论是如何运用到冲突与威慑研究中的？

Documents

第十三讲：博弈论PPT... · 2021. 1. 15. · 纳什（1928—2015）与博弈论 w《美丽心灵》(Beautiful Mind) w约翰·纳什20岁便在普林斯顿⼤学 读博，他的博⼠论⽂Non-cooperative

第十三讲：博弈论PPT... · 2021. 1. 15. · 纳什（1928—2015）与博弈论 w《美丽心灵》(Beautiful Mind) w约翰·纳什20岁便在普林斯顿⼤学读博，他的博⼠论⽂Non-cooperative