龙空技术网

博弈论基础Game Theory Basics

人工智能前沿学生论坛 1612

前言:

现时看官们对“进化稳定策略名词解释博弈论”可能比较重视,朋友们都需要了解一些“进化稳定策略名词解释博弈论”的相关内容。那么小编同时在网上汇集了一些有关“进化稳定策略名词解释博弈论””的相关文章,希望我们能喜欢,咱们快快来学习一下吧!

编者按:当前,群体智能已成为新一代人工智能的重要领域,如何更好实现多智能体间的相互协作、相互竞争意义重大。而当我们面对群体智能决策问题、要使多智能体系统具备更强大能力时,对博弈论的学习与应用必不可少。今天,小编为你整理了中科院自动化所张海峰副研究员讲授的《博弈论基础》课程,邀你一起了解人工智能强化学习语境中的博弈论。

转载来源:中国科学院自动化研究所

备注:该课程来自于近日国内外知名高校和研究机构的强化学习领域研究者共同发起的RLChina 2020强化学习夏令营。该夏令营以在线公开课的形式开展,课程内容包括严谨的数学推导、最新的研究结果和理论。相关课程视频在ZOOM、B站同步直播。中科院自动化所(公众号:casia1956)获得课程主讲老师授权,做不改变原意的课程概要编辑整理。

本期内容为中科院自动化所副研究员张海峰带来的《博弈论基础》课程。课程内容包括研究动机和标准式博弈、扩展形式博弈和不完美信息、贝叶斯博弈和不完全信息、纳什均衡及其变体、纳什均衡理论结果、重复博弈及其学习方法、其他解法和进化博弈论等7个章节。

张海峰 中国科学院自动化研究所副研究员、硕士生导师

观看课程

提前剧透一下,文末有课程脉络总结哦!

课程概要

01

研究动机和标准式博弈章节解释了博弈论在强化学习中的必要性和地位,由生活中的博弈及博弈论发展历史引入,明确博弈中的基本要素、前提条件,并通过例子直观地解释一般形式的博弈,解释了纯策略和混合策略的概念。

02&03

扩展形式博弈和不完美信息、贝叶斯博弈和不完全信息两个章节介绍了结合马尔可夫决策过程的马尔可夫博弈、不完全信息的贝叶斯博弈,充分比较了扩展型博弈和标准型博弈,解释不完全信息和不完美信息的区别,总结了不同类型下游戏的策略表示,并展示了不同类别博弈的经典案例。

04

第四章纳什均衡及其变体由博弈的解法推导出发,介绍纳什均衡的含义,并解释了帕累托最优和纳什均衡的差别。接着进一步介绍混合策略的纳什均衡、扩展型博弈的纳什均衡、子博弈精炼纳什均衡、贝叶斯纳什均衡以及完美贝叶斯纳什均衡。章节最后,张海峰副研究员总结了各类博弈下对应采用的纳什均衡概念。

05

第五章纳什均衡理论结果介绍纳什均衡的理论部分,包括纳什定理,即纳什均衡存在性证明,同时引出证明的基础Brouwer不动点定理和Sperner引理。最后介绍纳什均衡的计算复杂度及PPAD问题类,以及学者对四个问题的归约。

06

第六章重复博弈及其学习方法重复博弈及其学习方法中,在定义重复博弈概念后,介绍重复囚徒困境问题中的Tit-for-tat和Win-stay, lose shift经典策略,以及无限重复博弈下的无名氏定理。学习方法方面介绍了虚拟对策(Fictitious Play)和非遗憾学习(No-regret Learning)。

07

第七章其他解法和进化博弈论介绍了两个其他均衡:Stackelberg均衡和Correlated均衡。另外还介绍了进化博弈论,以及其中涉及的Replicator模型等相关理论。

最后张海峰副研究员将本节课涉及的所有知识点总结在一张图中,帮助同学们更清晰地理解《博弈论基础》课程脉络。

标签: #进化稳定策略名词解释博弈论 #进化博弈论例题