[知识回顾]囚徒困境模型中的重复博弈

现在我们考虑经典的囚徒困境模型,如果博弈重复无穷次,结果如何?

    静态博弈:

宽客网,量化投资,宽客俱乐部

两阶段动态博弈(以该博弈作为原博弈G重复两次):

第一阶段

宽客网,量化投资,宽客俱乐部

通过逆向递归法,本阶段的纳什均衡为(坦白,坦白)即(-8,-8)

第二阶段,即将最后阶段的收益(-8)添加到第一阶段的矩阵中,即:

宽客网,量化投资,宽客俱乐部

在已知第二阶段结局的情况下,本阶段的纳什均衡为(坦白,坦白),即(-16,-16)

    对于两次重复的囚徒困境问题,总是坦白为本博弈的SPNE。即在有限次重复博弈G(T)中,

    如果原博弈G存在唯一的纯策略纳什均衡组合,则重复博弈的唯一的子博弈完美纳什均衡解为各博弈方在每阶段都采取的原博弈纳什均衡策略。这意味着在原博弈具有唯一均衡的有限次重复博弈中,由于完全理性的博弈方具有“共同知识”的分析推理能力,因此在从最后阶段开始的逆推过程中,仍然无法摆脱囚徒困境。

    例:重复博弈中战略举例:

    总是不合作: 不论过去什么发生,总是选择不合作。

    总是合作: 不论过去什么发生,总是选择合作。

    合作-不合作交替进行。

    针锋相对(tit-for-tat,TFT): 从合作开始,之后每次选择对方前一阶段的行动。

    触发策略(trigger strategies):如果任何一个局中人的一次性不合作(偏离)将触发局中人永远地不合作开关;从合作开始,一直到有一方不合作,然后永远选择不合作,又称为“冷酷战略(grim strategy)”。

    当博弈重复无限次时的情形。假定两个囚徒A和B的贴现因子为相同的常数δ,博弈重复无限次。由一阶段偏离准则知:(抵赖,抵赖)仍然是无限次重复囚徒博弈的子博弈完美均衡;但接下来我们将证明,当δ充分大时,合作均衡结果每阶段都为(抵赖,抵赖)将是一个子博弈精炼均衡。Axelrod(1981,1984)的锦标赛实验结果表明,在200次有限的重复囚徒博弈中,合作行为频繁出现,而“针锋相对”战略是最稳定的策略。

无限次重复博弈使参与者走出了囚徒困境,背后逻辑在于:如果博弈重复无穷次而且每个人有足够的耐心,任何短期机会主义行为的所得均是微不足道的,行为人有积极性为自己建立一个乐于合作的声誉,同时也有积极性惩罚对方的机会主义的行为。即基于理性的自私考虑在很多情况下,能够产生合作解——M·Talor(The Possibility of Cooperation):囚徒困境中理性合作的不可能性事实对于人类社会的成功合作来讲并不苛刻,否则,理性人就不会进化成社会动物。如果要理解有关人类合作和真正困难所在,我们需要对更复杂的博弈进行研究。必须重复面对大量的合作问题的原因是,它打开了通往互惠之门的通道。
博弈论, 博弈, 重复, 囚徒

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部