前言:
如今各位老铁们对“bp算法的基本思想”大概比较注重,朋友们都想要了解一些“bp算法的基本思想”的相关文章。那么小编在网摘上收集了一些关于“bp算法的基本思想””的相关知识,希望朋友们能喜欢,小伙伴们快快来了解一下吧!深度学习的三要素包括算法、数据和算力,本文主要对算法的演进过程进行了 回顾,认为过往神经网络的发展以 Relu 激活函数的提出为分水岭,分为浅层神 经网络和深度学习两个阶段。
在浅层神经网络阶段,最重要的任务就是解决梯度不稳定的问题。在这个 问题未被妥善解决之前,神经网络应用性能不佳,而属于非神经网络的支 持向量机算法(SVM)是解决人工智能模式识别的主流方法。
2011 年 Relu 激活函数被提出、梯度消失问题被大幅缓解之后,神经网络 进入深度学习时代,算法和应用的发展均突飞猛进。
最初 CNN、RNN 等 模型在不同的模态和任务中均各有擅长,2017 年 Transformer 的提出让深 度学习进入了大模型时代、2020 年 Vision Transformer 的提出让深度学习 进入了多模态时代,自此多模态和多任务底层算法被统一为 Transformer 架构。 目前深度学习算法主要是基于 Transformer 骨干网络进行分支网络的创新,如 引入扩散模型、强化学习等方法。整个行业算法发展速度放缓,静待骨干网络 的下一次突破。 下文我们将对各发展阶段的经典模型进行回顾:
1. 感知机:第一个神经网络
感知机由 Rosenblatt 在 1958 年提出,是神经网络发展的起点。感知机是一个 单层的神经网络模型,由输入值、权重、求和函数及激活函数三部分组成。整 个模型对输入值进行有监督学习,权重部分是可训练参数;将对应输入与权重 相乘求和,得到的求和值与常数比对,判断是否触发激活函数,最终依据输出 的 0-1 信号判断图像类别。
感知机提出了用神经网络模型解决人工智能任务。但作为神经网络模型的 开山之作,还存在以下问题: 1)受阶跃激活函数限制,感知机只能输出 0 或 1,因此只能进行二元分类。 2)感知机只能处理线性可分数据,无法处理线性不可分的数据,而线性 不可分数据是现实世界中的常态。该严重缺陷由 Minsky 于 1969 年提 出,扼杀了人们对感知机的兴趣,也由此导致了神经网络领域研究的 长期停滞。
2. 多层感知机与 BP 算法——神经网络的再兴起
2.1 多层感知机解决了多元分类问题
20 世纪 80 年代,多层感知机(MLP)被提出。模型由输入层、输出层和至少 一层的隐藏层构成,是一种全连接神经网络,即每一个神经元都会和上下两层 所有的神经元相连接。各隐藏层中的神经元可接收相邻前序隐藏层中神经元传 递的信息,经过加工处理后将信息输出到后续隐藏层中的神经元。
由于隐藏层丰富了神经网络的结构,增强了神经网络的非线性表达能力,感知 机的线性不可分问题得以解决,因而神经网络再次迎来兴起。
相较感知机,多层感知机主要进行了如下改进: 1)解决了感知机的二元分类问题:引入隐藏层,并采用非线性激活函数 Sigmoid 代替阶跃函数,使得神经网络可以对非线性函数进行拟合。 2)可进行多元分类任务:多层感知机拓宽了输出层宽度。
多层感知机的发展受到算力限制。由于多层感知机是全连接神经网络,所 需算力随着神经元的增加呈几何增长。而在算力相对匮乏 20 世纪 80 年代, 算力瓶颈阻碍了多层感知机的进一步发展。
2.2 BP 算法:神经网络训练的基本算法
1986 年,Hinton 提出了一种适用于多层感知机训练的反向传播算法——BP 算 法,至今仍是神经网络训练的主流算法。
BP 算法的核心思想为:将输出值与标记值进行比较,误差反向由输出层向 输入层传播,在这个过程中利用梯度下降算法对神经元的权重进行调整。
BP 算法最大的问题在于梯度不稳定。由于当时 Sigmod、Tanh 作为非线 性激活函数应用广泛,而这两种激活函数都存在一定范围内梯度过大或过 小的问题。神经网络停留在浅层时,连乘次数少、梯度较为稳定;而当神 经网络向深层迈进,梯度的不稳定性加剧,使得深层神经网络无法正常训 练。
3. 浅层神经网络在多应用领域各自演进
多层感知机的出现奠定了神经网络的基本结构,也使得神经网络的应用范围不 再局限于图像识别,而是向自然语言处理、语音识别等其他领域拓展。由于各 个领域的任务具有不同特点,神经网络产生了众多分支模型。这一阶段分支网 络探索各自领域的任务特点,通过机制创新使神经网络获得对应的特征提取能 力。
3.1 图像识别领域:“卷积”机制提取图像空间特征
人类在进行图像识别时,能够从细小的特征推理得知事物的全貌,即“窥一斑 而见全豹”。在多层感知机时代,由于二维图像被转化为一维向量后输入模型, 因此丢失了图像的空间特征信息。为了使神经网络获得从特征到全局的图像识 别能力,卷积神经网络应运而生。 1998 年,LeNet 卷积神经网络(CNN)首次应用于图像分类。CNN 通过多个 卷积层对特征进行提取和压缩,得到较为可靠的高层次特征,最终输出的特征 可应用于图像分类等任务。
LeNet 网络由卷积层、池化层和全连接层构成:
1)卷积层:通过在输入图像上滑动卷积核,进行卷积操作提取关键特征。 卷积核的尺寸比输入图像小得多,无需像多层感知机一样学习完整图 片信息
2)池化层:对特征进行约减,从而提取主要特征,比如将卷积层的输出 划分为若干矩形区域,取各区域的平均值或最大值,从而简化网络计 算复杂度
3)全连接层:对提取到的特征进行汇总,将多维的特征映射为二维输出。
相较多层感知机,卷积神经网络具备以下优点:
1)计算量减少:神经元只与对应的部分局部连接
2)图像识别能力增强:利用卷积思想,使神经网络具备了局部特征提取 能力
3)平移不变性:由于卷积核会在输入图像上滑动,所以无论被检测物体 在图片哪个位臵都能被检测到相同的特征。
3.2 自然语言处理领域:“循环”机制提取语言时序特征
人类在进行文字阅读、语音识别时,不仅会关注当前看到、听到的词句,还会 联系上下文进行辅助理解。在多层感知机时代,所有的输入彼此独立,模型仅 针对当前词句进行训练,而不关注前后信息,造成了时序信息的丢失。 为了使神经网络获得时序信息提取能力,1986 年循环神经网络(RNN)被提 出,将循环思想引入神经网络。在 RNN 中,每个神经元既接受当前时刻输入 信息、也接受上一时刻神经元的输出信息,使神经网络具备了时序特征提取能 力。
标签: #bp算法的基本思想