龙空技术网

吴飞:大数据智能从最优解(数据拟合)到均衡解(博弈对抗)

人工智能前沿学生论坛 242

前言:

眼前兄弟们对“动态博弈求解”大致比较关心,咱们都需要分析一些“动态博弈求解”的相关资讯。那么小编同时在网络上收集了一些关于“动态博弈求解””的相关内容,希望姐妹们能喜欢,我们快快来学习一下吧!

关注微信公众号:人工智能前沿讲习,重磅干货,第一时间送达
一:报告导读

本次报告介绍了博弈论思想在人工智能领域的应用,首先介绍了使用传统的数据拟合寻找最优解的思路,之后引入博弈论的思想,以AlphaGo和对抗生成网络为例介绍了均衡解的问题。最后对人工智能的未来进行了展望。


二、专家介绍

吴飞,浙江大学求是特聘教授,博士生导师,浙江大学计算机学院副院长,浙江大学人工智能研究所所长。国家杰出青年科学基金获得者(2016年)、入选"高校计算机专业优秀教师奖励计划"(2018年)、教育部人工智能科技创新专家组工作组组长(2018.8-2020.12)、"新一代人工智能系列教材"编委会秘书长。主要从事人工智能、跨媒体计算、多媒体分析与检索、统计学习的研究。

三、报告内容

深度学习凝练出来,就是一个端到端逐层抽象的学习,给到标定的大数据,在多层神经网络的驱动之下去逐层抽取数据里面所能够抽取的显著特征,基于这个显著特征来进行对象或者语义的分析与识别。

深度学习里面很重要的基本单元我们称为神经元,神经元就像我们的大脑里面不停的接受相邻神经元传过来的信息,以一定的加权累加的结果对信息进行汇聚,然后进行非线性的映射。

整个神经网络只要给出了这个数据,神经元就能输出这个数据所对应的类别标签的概率,然后根据这个概率来计算它的损失。那计算的损失有什么用呢?在深度学习里面我们知道,它有一个误差互相传播的机制,它自动把这个误差向全象神经元进行传递,自动调节误差里面的权重。本质来讲整个神经网络实际给出大量的数据,如何学习得到成千上万的参数,用这个参数完成优化求解的这么一个过程。

深度神经网络也有很多的形式,比如说我们可以把这个前馈神经网络,它本身是一个非线性的映射,端到端的学习,它本身是一个可插分的,我们可以把它进行拓展,加入到不同的输入门、遗忘门和输出门来进行拓展。在拓展的这个过程里面,我们也知道虽然它可以捕获到持续信息,但是本质上还是做一个优化求解,也就是说如何基于可标注的大数据完成深度学习里面的这个神经网络它的参数的学习。

但是在现实生活中,很多的问题求解不是最优解,而是均衡解,这个均衡解就和博弈非常地相关,博弈叫做两害相全取其轻,两力相权取其重,博弈在中国历史上有非常悠久的历史,孔子曾说你吃饱了没事干也是很困难的,你不可以去下棋吗?玩点博弈吗?有点像仓廪实而知礼节的过程。

博弈论有一个非常重要的概念叫做纳什均衡,本质来讲就是不后悔,不同的人相互之间进行博弈,当这个博弈的游戏结束的时候,每个人都会心甘情愿的去承认这个博弈的结果。如果有一个人说,不行我要反悔一下,前面有一步我要重新来过,纳什均衡告诉他,现在已经到达了纳什均衡,如果任何一个人要反悔的话,其他人的策略不改变,既使是你反悔了也不会给你带来更大的收益。

一般讲纳什均衡的时候我们会用“囚徒困境”这个例子来讲,比如说警察抓了两个人,这两个人犯了罪,但是这两个人到警察局的时候他有几种策略来应对警察。他们犯了罪到警察局有不同的策略,但我们往往发现,最后甲和乙分别会选择认罪,就是说各判五年的结果。但实际上在这个博弈的过程里,甲沉默和乙沉默各判半年,对他们来说是最优解,但是在现实生活当中他们往往趋向于达成一个均衡解。在我们的社会生活中,我们构造的一些模型,希望去求这个最优解,但往往这种模型求出来的是这个均衡解,这就使得我们去反思,什么时候要用模型去求它的这个均衡解,而不是最优解。

博弈里面有非常多的研究内容,有博弈机制的设置和博弈策略的求取。在博弈问题上是一个很难的问题,博弈问题是一个长序列的决策问题,很多时候它的状态是部分可观测,而且也是连续的高维空间动作的问题。现在这个博弈的趋势就从完全信息到不完全信息,从集中式到分布式,从优化思维到均衡思维,有这样一个转变和跳跃。在这里我们以AlphaGo来简单讲这下这个博弈,这是AlphaGo1.0,Deepmind公司选择人类选手已经下完的16万人类选手的棋谱,把每个棋谱扫描成一张张的图像,一场围棋比赛会下150到200局,所以得到了3000万张图像,Deepmind公司把这些图像全部扫描,每张图像给另外一张图像用卷积神经网络去编码这个图像的特征,这张图像对应了一个行为,于是得到了大量的标注数据,图像行为、图像行为,这个行为就是落子。所以就可以训练一个神经网络,给你一幅图像,得知它的落子是什么,在这个标注大数据之下,AlphaGo就会下棋了。但是它只能达到五段的水平,Deepmind公司不气馁,他说既然是两个五段的选手,我们就让他们自我博弈,就是强化学习,于是从五段选手变成了九段选手,战胜了李世石。

其实整个AlphaGo拆开来算是三个算法单元,一个是深度学习,去有效的编码当前棋局的局面,第二是强化学习,对序列进行学习,第三个就是蒙特卡诺的树搜索,虽然AlphaGo是一个有限的枚举的落子的游戏对决,但是这个落子的局面比宇宙的原子还多,所以Deepmind公司引入了蒙特卡诺搜索,通过采样的方式来进行学习。这是一个自我的强化学习,AlphaGo从1.0到战胜柯杰的2.0,到AlphaGo zero,就走到了一个均衡解的道路。还有其他的对决,比如说open AI,游戏也战胜了人类的选手,这也是一个叫做博弈对决的游戏的算法。

游戏博弈的学习确实很难,包括Deepmind也把均衡解用到了星际争霸里面。和我们相关的GAN,它也是一个均衡解,有一个生成的模型,也有一个判别的模型,生成模型和判别模型之间要形成一个均衡解,使得我的这个生成模型所产生的数据难以被判别模型所区分开来,也就是矛和盾之间均衡的对决。

GAN是力图学习原始数据概念的分布,如果把它放到我们今天的语言和视觉环境来看,我们也看GAN,通过这个语言可以产生精美的图像,或者通过图像也能产生比原始图像更加精美的图像,这也都是通过GAN产生的图像。GAN如果放到纳什均衡的框架下,它也面临着很大的困难,对GAN来讲,它往往找到的是一个局部的纳什均衡,很难找到全局的纳什均衡,使它产生了模型塌陷以及模型反馈的误差很小,使得产生数据的多样性非常有限。

大卫希尔伯特讲到的“我们必须知道,我们必将知道”,我们知道人类从手工计算迈入自动计算的这个理论模型是图灵机模型,它是来源于大伟希尔伯特在1900年在巴黎世界数学家大会上提出的30个数学纲领中的纲领4,使得一群逻辑学家或者是数理学家去研究这个图灵机模型。这句话是刻在大卫希尔伯特用墓碑上的一句话,对他来讲也充满了自信,如何解开人工智能向着星辰大海的谜团,人类一定有办法,也一定有这样的决心。而诺贝尔物理学家费曼在加州理工大学的黑板上写的一句话“不可造也,未能知也”,他希望找到一种模型,这种模型和现实世界里刻画的能动性是紧密相关的,我们要了解人类大脑,如果要造出一个人类大脑,那一定会理解人类大脑里面复杂的高级视觉活动。

今天我们已经进入了人工智能头雁效应驱动产业的变革,我们想人工智能本身从1956年达特茅斯学院出发,这个出发之日“其做始也简,其将毕也必巨。”


标签: #动态博弈求解