龙空技术网

焦李成院士:下一代深度学习的思考与若干问题

IPIULab 21087

前言:

目前姐妹们对“量子遗传算法transformer”大体比较珍视,各位老铁们都需要了解一些“量子遗传算法transformer”的相关文章。那么小编同时在网上网罗了一些对于“量子遗传算法transformer””的相关内容,希望你们能喜欢,姐妹们快快来了解一下吧!

2022年11月10日和16日,欧洲科学院外籍院士、俄罗斯自然科学院外籍院士焦李成受邀参加由戴琼海院士主持的系列交叉论坛第51期,同时参加了2022年“一带一路”人工智能大会,做了题为“下一代深度学习的思考与若干问题”的主旨报告。以下为报告的部分内容。

非常感谢大会邀请,使我能够有机会和大家分享下一代深度学习的一些基本的问题,主要从以下六个方面展开:第一是深度学习的思想起源;第二是它涉及到的一些基础的理论;第三是类脑启发的深度学习;第四是物理规律启发的深度学习;第五是进化启发的深度学习;最后给出一些思考和挑战

深度学习的思想起源

其实深度学习到现在已经发展了很多年时间。深度学习又称为表征学习。也就是所说大数据驱动层次化的机器学习模型,以自动获取对象的向量化的表达,从而为我们所处的现实世界和问题进行建模。

1974年,Paul Werbos在他的哈佛大学的博士论文中首先提出了超越回归,也就是BP算法。1986年,DE Rumelhart, GE Hinton, JL McClellandt把深度学习中的反向传播误差的算法用于学习表征,从而对深度学习的算法进行了再次的改进。1980年,Kunihiko Fukushima提出了卷积神经网络,将神经原理用于工程的开创性质研究中,因此获得了2021鲍尔奖。Lecun在对Kunihiko Fukushima工作的评价当中说:福岛邦彦教授1980年的卷积网络工作给了他很大的启发,促使他1989,1998年分别提出CNN和LeNet。

经过众多的先驱者的努力,才有今天繁荣的局面。IEEE神经网络先驱奖得主鉴证了人工智能的发展历程:

Shun-ichi Amari(甘利俊一)提出了神经场的动力学理论,特别在信息几何方面作出了奠基性的工作。

Paul J Werbos,1974年在哈佛大学博士毕业。Werbos主要建立和提出了反向传播算法BP,可以说Werbos是BP算法的第一人。Geoffrey Hinton也为BP算法的广泛使用和传播做出了诸多贡献。

Leon O. Chua是一位华裔科学家,人们将其奉为加州大学伯克利EE领域的三巨头之一。他提出了蔡氏混沌电路(Chua's Circuit),促进了非线性电路理论的发展,掀起了研究非线性电路的热潮,为理论走向实际做出了卓越贡献。此外,他还提出了CNN细胞神经网络,在世界上的影响巨大,是华人的骄傲。很多杂志曾经介绍过他的CNN、混沌电路等科学发现。至今,他仍活跃在中美科学交流的一线。

Fukushima是神经认知机的提出者,也是最早的卷积神经网络。Oja是芬兰的科学家,也是子空间的提出者。姚新老师对进化计算的贡献非常巨大。王钧老师也对神经网络的研究作出了重要贡献。LeCun在2014年因为其在卷积神经网络的研究而获奖;之后Bengio在2019年获奖;2021年的获奖者是刘德荣老师,他曾任IEEE TNNLS的主编。

深度学习的基本思想就是模拟人脑的信息处理机制,希望能够对自然信息,尤其是声音、语言、文字、图像进行很好的处理。而这些是传统的计算机方法难以做到的。但是目前深度学习对于人脑的知识处理机制和推理机制了解的还不够,同时也实现的不够。实际上,网络的基本结构不仅包含神经元突触和突触的连接机制,相关的学习激励和准则(主要是Hebb学习规则),同时也包含神经元的种类个数,神经网络的层数、连接的结构,前向反馈等等。所有这些基本结构和机制对神经网络的性能起着非常重要的作用。

神经网络主要是通过学习和优化来实现对数据的计算处理,从而产生了对海量大数据样本的训练问题、稀疏编码与表征问题、泛化问题、可解释性问题和鲁棒性问题。这些问题如何解决呢?首先是对数据的感知。也就是说我们如何通过稀疏编码和表征解决这样的问题。第二,如何表证更复杂的数据,而不仅仅是简单的数据,比如小样本、复杂的多媒体跨域数据等等。第三,我们要学习和优化模型来解译这些数据,对其蕴含的规律进行了解,并通过神经网络获得满意的解。第四,深度学习处理的是一个物理问题,与场景有关。第五,现有的网络结构是否能够模拟大脑信息和知识处理的生物机制。第六,大脑的知识处理机制和先验是人脑信息处理的重要的组成部分,如何嵌入现有的深度学习结构、学习与优化中。

更详细地来讲,我们要对以上的问题进行再认识与再思考。

第一,如何模拟人脑的稀疏性、选择性、方向性、学习性、多样性、记忆遗忘机制,对数据和知识进行学习、优化和识别。

第二,Beyond Data-drived。就是说要建立knowledge-based,physical-informed和brain-inspired,将其有效的利用和互补起来,去解决复杂的场景问题、物理问题。

第三,Beyond BP。在深度神经网络和学习中,我们主要运用BP算法进行优化,但是BP算法存在收敛性,容易陷入局部最优解、梯度弥散和消失等问题。因此,应该把全局达尔文进化学习和局部的拉马克、班德温学习相结合起来。

第四,Beyond Sigmoid。Sigmoid函数的表征具有一定的局限性,它在稀疏层次表征、选择性、方向性、正则项、正交、紧支性上是有明显缺陷的。因此,我们怎么样能够去有效的表征,仍然是一个亟待解决的问题。

第五,神经网络结构的自动搜索。对于场景问题、实际的问题、想匹配的重要问题,怎么能从多角度、多层次去对神经网络进行解释,实现它的鲁棒性和容错性仍然是有待解决的问题。

第六,深度学习的稀疏编码和逼近。包括学习和优化的基本数学问题,实际上与高维几何动力学密切相关。我们怎么能够从高维的几何动力学角度去对神经网络的学习、逼近进行再认识,再学习,这是一个重要的问题。

第七,Beyond Perception。我们现在模拟的更多是感知问题,但对认知的问题应该怎么样去做?这个问题十分重要,需要考虑知识嵌入建模, 知识与学习发现,归纳与推理,自学习,自组织,自演化,自推理等等。

第八,深度学习不仅仅是计算与训练问题,而更重要是类脑感知与认知,包含编码、表征、学习、优化、推理、决策、行动。

第九,如何实现对问题场景的感知、表征、学习与结构优化的高效应用,而不仅仅是对目标的简单检测、分类和识别。

第十,深度神经网络亦或人工智能,如何和科学能够紧密的结合起来,真正的去解决科学的问题,而不仅仅是一种数据处理的工具。这同样需要我们去认真地考虑设计学习框架。

从数据与期望、表征与学习误差、建模与优化的角度来讲,不仅仅要考虑网络的数据采样、激活函数的选择和损失函数或者目标函数的构造,更重要的是要对大数据小样本的问题、数先验的问题进行归纳。同样,我们如何进行知识的建模,就需要从生物启发、物理启发及类脑启发去实现知识建模。同时,在这个过程中就会存在有结构搜索、参数优化及数学性质的函数、导数的学习和优化,也就是模型优化的问题。

深度学习的基本理论

第二,我给大家汇报的是深度学习的基本理论。这些基本理论包含有逼近理论、表征理论、学习理论和优化理论。逼近理论包括万能逼近定理、仿射系统逼近、多尺度几何逼近及w函数的逼近。表征理论包括网络构造、编码器构造、多尺度网络、复数域网络和轻量化网络的构造。学习理论包括模型评估、正则化、泛化理论、可解释性、收敛性、复杂性等问题。优化理论不仅包含有现在的以梯度为基础的优化,更需要启发式的和进化的相结合,以实现全局和局部相结合。

对于函数的逼近,不仅仅是要从数据样本出发,更重要的是拟合输入和输出的映射关系,同时要对未知的、非线性的、高维的函数进行非线性逼近。Weierstrass逼近定理表明,对于给定的函数,n次多项式可以以任何精度逼近,只要有n的次数足够高。神经网络有一个逼近定义,也就是通用逼近定理:只要一个神经网络神经元的个数足够多,能以任意精度逼近任意的连续函数。对于Gabor系统的逼近,同样是包含了对测不准原理(不确定性原理)的应用。从傅里叶分析、小波分析到多尺度几何分析,函数逼近性能在高维奇异性取得了突破。经过几十年的发展,不仅仅是一些波被提出,更重要的是其对于高维奇异性的表征。同样,Weierstrass函数实现了对处处连续而处处不可导的函数的逼近。从这个意义上来讲,它具有更多的泛化性。

网络结构的实现,不仅包括网络的结构,还包括学习的结构和参数的优化等等各个方面。广泛使用的卷积、递归、图卷积、自注意网络的构造都是在一步一步地实现各种类脑处理的机制和表征理论。除此以外,还有编码器的构造领域。在信息处理领域,我们更习惯于用编码器或者说滤波器来表征数据的信息。编码器、自编码器和生成模型都是这一思想的发展。

同时,多尺度学习构造为深度学习带来了突破性的进展,尤其在特征的时-频表示与分析。当然,我们也要从实数走向复数,因为我们生活的是一个复数的世界,不仅有大小,而且有方向的变化,更重要的是对噪声的学习、记忆和识别。因此,复数网络的构造或者复数网络的学习也是表征理论重要的进展。在这个领域,我们希望能够去做更多的工作。目前我们也在复数的卷积网络、复数的轮廓波网络、半监督的复数网络以及复数的Transformer网络方面做了一些工作,具有很大的潜力。对于实际应用来讲,我们所要的神经网络必须是高效的、高性能的同时也是轻量化的网络,设计高效、高性能的轻量化神经网络是目前深度神经网络广泛应用的前提。

网络学习中最重要的一点是如何评价一个网络性能,模型评价是使模型能够实际应用决策的前提。在这个意义上来讲,我们还要不断地去完善相应的评价体系。正则化理论对网络设定了一定的规则约束。它是提高网络泛化能力和避免过拟合,以及进行稳定和加速度深度网络收敛的前提。正则化理论也是设计高效网络的前提和重要的理论基础。其次,泛化理论也很重要,它对于网络的训练以及测试起到重要的作用。泛化能力对于深度学习能否应用在实际中,起着决定性的作用。泛化误差是算法基于训练集学习,所得到的模型在未知数据上的预测能力,这是网络的重要指标之一。

可解释性是神经网络另一方面的重要学习理论。实际上网络的可解释性不仅仅取决于数据,更取决于相应的模型,取决于感知数据的过程,取决于认知数据的过程,也取决于构造的模型和其对数据的表征、学习以及优化过程。而不仅仅是把它变成一个网络黑箱的结构。收敛性是网络学习和算法非常重要的依据。怎么样能设计出高效的、可行的算法和网络,始终是一个永恒的主题。模型的复杂度分析对机器学习、人工智能的算法都是重要的。我们希望它的复杂性既能够匹配问题,又能够匹配硬件的实现,也就是要在可约束的、有限资源的有限环境下来实现满意的最优解。

在网络优化理论当中,我们大部分用的都是梯度下降算法及它的变体。尽管这些方法对于对小数据是有效的,而且收敛性有保证。但是对大数据稀疏样本病态问题怎么办?那甚至说的更极端的,对于不连续函数怎么办?尽管高阶优化算法或者高阶梯度算法能解决一部分问题,但从根本上来讲,梯度算法是不够的。

因此,要能够把梯度的算法和非梯度的算法有效的结合起来是深度的学习发展的方向。所以说进化优化是解决梯度优化问题缺点的一个重要途径。通过自然进化的方法,可以去选择和进化出重要的、好的、优选的解,并且获得系统的满意度。实际上也证明这种结合的方法也获得了非常好的效果。群体智能和自然进化都属于启发式算法,和人工智能密不可分。它模拟了局部的相互作用与环境的相互的交互,通过动力学的演化,以概率1收敛于全局的满意解,具有多样性、稳定性、自组织性和自适应性。所以说它也是解决梯度算法现存在问题的非常重要的一个方面。此外,启发式优化算法还包括免疫优化算法。免疫优化的算法是非常重要的,它能够利用现有的知识,而且具有学习的记忆性、多样性、分布性、容错性和被动免疫性等优点。

深度学习创新的源头对于当下我们再回顾起来是很有意义的。脑科学回答了人是如何思考的。这些工作给我们很大的启示。生物科学告诉我们如何优化,这些成果同样也从生物上告诉我们人类,优化有哪些潜力。同样,物理学的成果也启示我们,求解是一个物理问题。而我们如何按照物理规律来建立相应的网络,去求解相应的问题是非常重要的、有潜力的方向。

类脑启发的深度学习

我们对类脑的感知和认知,还有很多要学习的地方。2021年,诺贝尔奖生理和医学奖的获得者就是对于类脑感知和认知研究的意义做了有益的阐释。从感知到认知是一个复杂的过程。我们不仅要从心理学、哲学、语言、人类学、人工智能、神经科学角度去考虑,更重要的,我们是要从触觉、听觉、视觉去思考。Tomaso A.Poggio就认为,人工智能过去突破的是来自于神经科学,将来同样也是。

物理启发的深度学习

2022年,诺贝尔物理学奖授予了这三位科学家。他们用纠缠光子验证了量子不遵循贝尔不等式,开创了量子信息学。这些工作对我们是有效的启示。物理学是研究物质最一般的运动规律和物质结构的

机器学习和物理科学共同的核心是提取特征与规则,本质区别是规则的使用条件。物理科学从随机或者非随机的过程中“提取特征”,并获得在已知的适用条件下的显式规律。机器学习从随机或非随机的过程中提取特征,并获得在未知的适用条件下的隐式“规律”。

经典力学主要是研究运动与时空相对性的规律。简单来说,由流体力学所启发的,或者说由动力学过程中表征的特征就是它的流形结构。在人工智能中,就是期望建立神经网络的几何结构,例如,规范等变的卷积网络等,不管是广义相对论的时空模型,还是伪黎曼流形,都是这方面的实例。

动力学微分方程启发网络结构的设计和优化。比如利用前向欧拉、后向欧拉和二阶的龙格库塔等,将神经网络视为动力学微分方程,利用数值求解算法设计网络结构(典型网络:ResNet、PolyNet、FractalNet)。

哈密顿原理也就是最小作用原理,也是力学中的一个的变分原理。卡尔·雅可比特称之为分析力学之母。Hamiltonian神经网络利用哈密顿量,也就是动量守恒定理来保障神经网络中间的信息的完整性,同样Hamiltonian生成网络利用哈密顿原理,将优化问题转化为求泛函极值的问题。所以通过概率分布,能量分布,包括可能性,包括规范化流形都能够实现神经网络模型的构造和设计。拉格朗量同样如此,已知动能就可以获得动态能量的先验知识。由于神经网络是一个动力学的过程,如何实现长时间内对动态过程的建模,是需要克服的。而用神经网络学习拉格朗日量,在学习的动态的上,诱导一个强大的物理先验,就把两者有机的结合起来,这就是拉格朗日神经网络构造的基本思想和原理。其实神经网络的基本原理或者神经计算的基本原理就是能量最小化的一个过程。

模拟随机曲面现象:跳过鞍点,寻求最优解,是动力学的机制和保证,给了我们非常重要的启示。比如牛顿-莱布尼茨公式可以用于优化神经网络。基于物理信息的神经网络,是一类用于解决有监督学习任务的神经网络,它不仅能够像传统神经网络一样学习到训练数据样本的分布规律,而且能够学习到数学方程描述的物理定律。

回顾电磁学的发展历史,其揭示了电磁现象的本质:就是为表面上归结为求解常微分偏微方程的数值解。同样也启示了电磁的先验,用于构造启发式的神经网络和相应的学习算法。无论是从正向的求解,还是逆问题的求解都是有益的,所以说它的先验是双向正用的。我们不仅仅是把深度学习用于电磁学问题的求解,更重要的是,我们通过电磁学的规律去构造相应的深度神经网络。比如,利用基尔霍夫定律来构造相应的具有物理机理和意义的网络,用于求解非线性的偏微分方程。

光学神经网络模拟光学里的强度相位偏振等特征,借助波粒二象性来加速模拟网络的逼近性能。1985年加州工学院的Psaltis就首次提出了光学Hopfield神经网络模型,此网络模型不仅包含光电混合的神经网络,同样也包含了全光的神经网络模型。光学的基本原理与神经网络的结合,会使AI发生质的变化,光学神经网络是我们应该关注和实现的非常重要的途径之一。

热力学从宏观的角度研究了物质的热运动的规律及其性质。而统计热力学在此领域更是得到了飞速的发展,融入了随机的处理和不确定性的处理。对我们来是非常重要的工具之一或者基础性的科学之一。熵、波尔兹曼公式、自由能、耗散结构等定理既描述了物理界的基本的规律和基本的现象,同样为我们构造相应的物理的世界的深度的神经网络提供了有益的启示和规律。

统计热力学其实就是用无穷大的熵,也就由混沌状态出发,通过价值启发信息,通过统计找到规律、模式和知识,最终得到最优解。它的过程是通过动力学的演化以概率1收敛到全局最优。它的特点表现为随机性、非线性、遍历性、自组织性、自适应多样性、稳定性和高度并行性。这与神经网络求解的思路不谋而合,也给我们构造神经网络学习的目标函数的构造提供了非常有益的帮助。

熵的不变性是指热力学过程中没有发生熵变,熵值就保持恒定。例如,质量等熵过程,香农的信息熵,所以说信息论也是如此。在这个过程中,我们如何把选择注意机制和熵度量的不确定性有机的结合,也非常重要。最小熵的原理是为了降低学习难度,协助深度学习模型去冗余。从信息熵的角度来描述学习的成本和代价,启发通过最小编码长度、Information map、图书馆规划、成本最小化等角度去构造不同类型的神经网络,求解相应的问题。

耗散结构是热力学中最基本的现象,它就是能量的最小化,实现的最小的流形解的结构,也就是物理界的最优解的形成。自组织理论它不仅是包含了耗散、协同、突变,所有的这些都是我们现在自监督学习网络构成的核心的基础。自组织特征映射网络,是最典型的范例之一。耗散结构不仅能够与自组织相互辅助,而且有助于理解生物体的信息,解释各种流形、斑图的现象。用启发式的方法找到现实世界物理中的最优解,提供了有益的启示。

统计力学的思想不仅是源于混沌的思想,而且包括随机曲面的表征,随机初始算法的启发,概率与能量模型的启发和非平衡物理统计的启发。这些思想都促进了各种不同的分布,不同的机理,不同的网络模型和学习算法的产生,也有力的促进了深度学习、机器学习、人工智能的发展。同样可以通过宏观的运动规律和先验,包括逻辑与规则的先验,学习与推理,来构造新的学习和优化,推理与一体的数据,与知识一体的神经网络模型。

Ising模型也是受启于自旋的相干性,神经网络更是Ising模型中细胞更新的代表。和Hopfield网络对应起来,也就是1982年,Hopfield在PNAS上发的第一篇关于神经网络的模型——离散的Hopfield网络模型,是今天我们热衷的图神经网络的最原始的基本模型之一。1984年,Hopfield同样在PNAS上发表了他的第二篇神经网络的模型,也就是连续的Hopfield网络。同样1985年在Bioinformatics上Hopfield的发表了他的第三篇文章,把神经网络用于组合优化问题的求解。

模型如何能够达到最低能量态,实现最优化的求解——就是构造损失函数、目标函数。基于能量函数的模型就是基于物理学的能量的概念,熵的模型也是基于熵的基本概念来构造的神经网络模型。同样在模拟退火算法(即优化算法),是跳出鞍点,防止局部最优的爆炸,实现组合优化的最有效的模型之一。

模拟退火和能量函数结合起来,就构成了最著名的BM和RBM神经网络。它不仅是多层的,更重要的是它网络的平衡状态服从于波尔兹曼分布。而且我们能够通过模拟退火的算法找到其最优的解。GANs网络和变分自编码器则是模拟能量分布函数之间的变换来构造的。同样,可以利用世界的对称性、小尺度性和无标度性来构成深度学习的神经网络的等变性的模型,包括平移的不变性、伸缩的不变性旋转的不变性。

量子力学是物理学中非常重要的领域之一。从1900年的普朗克公式到爱因斯坦两获诺贝尔奖的广义相对论和狭义相对论,到杨振宁的杨.米尔斯理论,以及今年的量子纠缠或者叫量子信息的开始,所有这些量子力学的发展的过程都有力地推动和改变了这个世界的发展。

量子力学的基本的原理和思想用于神经网络构造神经网络的计算或者人工智能中间的学习计算和优化问题就是自然的结合。受量子的非线性,叠加,纠缠,高度的并行性和二值原理,以及它的非线性处理问题的方式启发了各种神经网络模型,包括量子神经计算、Group 算法、量子小波变换、量子遗传算法、量子点的神经网络模型、量子克隆原理、量子计算机、量子进化算法以及超导的量子计算处理器和现在最新的在量子通讯、量子安全、量子密码等领域的应用的典型的成果。量子计算是解决传统计算瓶颈问题的重要途径之一。

量子智能计算更是量子通信、量子传感、量子计算、量子密码等领域的核心之一。在量子态的表现上,是相干、纠缠、叠加和不可克隆,而它在希尔伯特空间的表征为复矢量的空间,具有内积,范数,完备性和张量的表达。量子机器学习的科学思想就是期望利用叠加、纠缠、相干、并行等量子特性。通过将机器学习算法量子化,或者构造量子的学习算法,使我们能够对数据先验进行表征、推理、学习和联想。用这四种性质来实现新的计算、新的学习、新的优化和新的推理。

量子深度学习不仅包含有量子神经计算、量子点的神经网络,更包含有量子的细胞网络,量子的感知器、量子的自组织网络、量子的卷积网络和量子的波尔兹曼机。量子的深度网络模型不仅有基于测量的、基于感知的,基于量子点的,同样也有基于量子电路的、量子比特的和量子随机游走的模型。所以各种机理都可以用来构造相应的模型。

传统的算法面临的海量,不完全,NP-Hard等问题,也就是它的迭代优化的问题。那这些问题该怎么办?首先我们处理的是一个物理的问题,那这些物理问题是怎么表征的呢?人脑是怎么处理的?所以说我们不能通过一方面去做这个问题,就形成了我们的思路:学习和优化有机的结合在一起。达尔文不够,同样需要拉马克和鲍德温竞争:竞争的同时,我们更需要协同。记忆的同时,我们也要学会遗忘。同时,我们也要学会量子的并行,这是构造量子启发算法的基本思想

我们在量子免疫计算方面的工作主要利用量子的叠加、纠缠、相干,提出了量子免疫计算的模型,也构造了相应的理论框架,这一部分的工作获得了国家自然科学二等奖。在量子图像解析方面,我们也应用实际的问题,显示了很大的潜力,也获得了陕西省科学技术的一等奖。同时,2020年我们也总结出了《Quantum Optimization and Quantum Learning: A survey》的综述。如果大家有兴趣也可以去看看我们有出版的《量子计算智能》、《量子计算、优化与学习》的专著,总结了我们对于量子研究的工作。

进化启发的深度学习

2022年诺贝尔生理学和医学奖的获得者就是关于“已灭绝人类基因组和人类进化的发现”方面的贡献。这一工作也启示我们,遗传基因怎么能够在进化计算中起到重要的作用。可以说,进化优化和类脑学习是人工智能的核心,也是人工智能算法的基础。我们怎么样从生物进化的角度来实现类脑智能学习,并把它们相结合。只有这样,我们才能有效的实现数据的训练和知识的推理

全局进化的达尔文主义和局部学习的拉马克、班德温主义是构成进化优化算法的基本思想,有效的将学习表征与优化紧密的结合起来。1948年,图灵在Intelligent Machinery”中指出从婴儿到成人,人类大脑皮层可以从无组织机器进化为通用机器。进化算法包括进化编程、进化策略、遗传编程等不同的分支。它更重要的是把知识和规律进行了统一的结合。在学习优化的过程中,通过动力学的演化实现以概率1收敛到全局的最优性。

群体智能不仅是是物理的启发,而且还包含生物的启发和社会的启发。这一类算法都有各自的优缺点。群体智能方面,代表性的方法包括粒子群、免疫、烟火、和雨滴等。在免疫算法优化和免疫克隆方面,我们团队也做了相应的工作,受到了大家的关注。

在进化领域,更重要的是,利用容错性、全局性,从而实现对局部学习的有效的求解。我们出版了《免优化计算、学习识别》、《量子计算、优化与学习》、《协同进化与多智能体系统》和《多目标优化免疫算法理论和应用》的专著。进化领域的代表性人物,不仅包括我们国家的姚新,也包括Thomas Bäck java、David B. Fogel、金耀初、张孟杰、屈嵘、张青富、张军、Gary G. Yen、Hisao Ishibuchi 、Kay Chen Tan等学者,以及我们团队都在这个领域做了一定的工作。

对于免疫理论,经验免疫、科学免疫和现代免疫的进展过程,为构造新的免疫系统、免疫进化算法提供了很好的生物学基础。自然免疫学理论也为人工免疫进化优化提供了坚实的理论基础。它能够利用先验知识,从而使网络具有容错性、免疫性、鲁棒性。

同样,大脑可以存储和检索特定的免疫反应,将免疫记忆的经典概念扩展到炎症信息的神经元表征。表明大脑与免疫系统是不可分割的,为免疫计算提供了更加坚实的理论基础。免疫系统包含学习记忆性、多样性、分布性、容错性和被动免疫性,这为构造深度学习网络或者深度网络系统提供了生物基础。当然,人工免疫系统也用在不同的方面,包括控制功能、诊断、规划、组合优化、图像处理、网络安全、机器人,数据处理、知识发掘等。

进化算法其实是从“人工”到“自动”的突围。人脑的进化包括神经网络的进化。神经网络进化是参数和超参的进化调整,还有现在所忽略的结构进化和动力学过程。这个恰恰是深度网络现在比较少关注的。大家都陷入到GPU与参数的计算过程中。但是在这个道路上,要如何实现自动的进化?如何自动的学习?从哪里去找源泉?进化计算也经过了一个漫长的过程,它和神经网络也有许多的结合,也是经过了几十年的历程,我们团队也有将近三十多年的研究历史。

深度学习和进化的结合,不仅仅是解决结构、权重参数的优化问题,更是对深度网络结构评价和对先验知识的利用。经验的利用是非常重要的,所以我们不能仅仅盯在简单的收敛性。更重要的是利用数据驱动和知识,自动找到拥有更好泛化能力、容错能力的网络的结构,来实现对场景问题的求解。在这个过程中,进化算法表现出巨大的潜力。同样我们也要去进行进一步的思考,进化搜索的特点为什么会这么用?就是因为它无需求导,具有群体、并行计算特性、非线性随机性,可以求解组合爆炸问题,能够找到全局最优解。但是对于更加深入的表征和结合,我们还有很长的路。同样2021年,Nature上刊出了新的研究进展,对于生物机制怎构造神经网络提供了坚实的理论基础。从这个方面也启示我们,去构造与未知相匹配的网络模型。

权重的进化当然也经过一个漫长过程。全局优化的问题,梯度优化的问题都是一个动态优化的问题。那么从这个意义上来讲,怎么样结合进化和梯度,也是非常重要的,是克服局部最优鞍点,梯度弥散和不收敛问题的重要途径超参优化同样也是非线性、非凸的,它也存在组合爆炸、试错成本高的问题。

在这个意义上来讲,进化算法有它自己的特点,但要解决根本性的问题。还有一个工作,就是最近很热门是“Meta Learning”(元学习),也就是授之以渔,不如授之以渔,也就是说模型可以通过进化算法来进行自我学习。元学习搜索其实对于规则的搜索是非常重要的方法之一,它也能够从生物启发上去实现。同样元知识、元学习器、元目标也是重要的待解决问题。现在也提出了一系列的办法,一起来对付泛化可解释性和鲁棒性,但是远远不够。对泛化性能的提高,对可解释性的追求,对进化全局最优解的追求永远在路上。

思考与挑战

我们团队在深度学习的基础方面,尤其是对优化学习、表征学习和编码成像方面,获得了三个国家自然科学奖。我们经过三十多年的工作,也做了一定的工作,尤其是我们把这些工作用在了我们国家卡脖子技术上,尤其是雷达技术。我们不仅是要看,还要看得清,不仅看得清,要辨得明,不仅要长眼睛,更要有智慧的大脑。所以我们研制成功了,世界上第一台“遥感脑”系统。这个系统就是实现了对遥感大数据的智能解译,起到了非常好的作用。

同样,我们也着重于学生的培养。我们近几年在CVPR、ICCV、ECCV上获得了将近两百项的冠亚季军,更重要的是解决了在这个领域应用的一些核心的技术。

深度学习,我们要继续下去,要从源头去,要从基础出发,才能实现创新和应用。对于源头我们不能不提及生物机理,物化机理和数学的建模表征,以及算法的实现,以及在硬件上的部署能力。从这个意义上来讲,更重要的是我们怎么样从类脑出发,从场景物理规律出发,来实现对大样本、小数据和知识的有效的建模和学习,进而在软硬件上实现它。

我们从单通道的数据驱动到加上知识的双驱动,再到物理的驱动,从感知到认知来实现推理、决策、优化。所以说下一代人工智能同样也是A(I) B(I) C(I)的结合。也就是,人工智能、计算智能、生物智能必须有机的结合,我们才能实现充分的感知,再全面的认知以及感知和认知协同发展。这也是我们下一代深度学习或者下一代人工智能的必由之路。

下一代的深度学习或者下一代人工智能还需要我们思考以下的问题,第一,数据与知识协同的优化与建模。第二,类脑深度学习的学习与优化。第三,Beyond Sigmoid的多尺度表征学习。第四,深度学习特征学习与通用逼近。第五,Beyond BP的学习、进化与优化。第六,感知与认知的协同建模与优化。第七,记忆与遗忘机制的建模。第八,安全可信的深度学习系统理论。第九,轻量高效的深度学习模型。第十,大数据小样本的深度学习。第十一,深度学习绿色迁移的系统理论。第十二,深度学习知识归纳与推理问题。第十三,开放环境的场景应用问题。第十四,Science for DL的建模、优化与学习。第十五,DL for Science的一般框架与范式。

深度学习理论的发展。我们还有很长的路需要去走,我们也需要扎扎实实的工作。当然我们更需要深入的思考,才能有更好的发展。谢谢大家。

嘉宾简介

焦李成,欧洲科学院外籍院士,俄罗斯自然科学院外籍院士,IEEE Fellow。现任西安电子科技大学华山杰出教授、计算机科学与技术学部主任、人工智能研究院院长、智能感知与图像理解教育部重点实验室主任、教育部科技委学部委员、教育部人工智能科技创新专家组专家、国家级领军人才首批入选者、教育部长江学者计划创新团队负责人、“一带一路”人工智能创新联盟理事长,陕西省人工智能产业技术创新战略联盟理事长,中国人工智能学会第六-七届副理事长,IEEE/IET/CAAI/CAA/CIE/CCF Fellow,连续八年入选爱思唯尔高被引学者榜单。

焦院士主要研究方向为智能感知与量子计算、图像理解与类脑计算、深度学习与进化优化。曾获国家自然科学奖二等奖、吴文俊人工智能杰出贡献奖、霍英东青年教师奖、全国模范教师称号、中国青年科技奖、及省部级一等奖以上科技奖励十余项。

标签: #量子遗传算法transformer