机器学习: 人工神经网络 (ANN)

昌华量化 06-06 373

前言：

今天我们对“cnn等于ann”大致比较注重，我们都想要分析一些“cnn等于ann”的相关内容。那么小编同时在网摘上网罗了一些关于“cnn等于ann””的相关知识，希望朋友们能喜欢，兄弟们快快来学习一下吧！

人工神经网络模型(Artificial Neural Network) 结构

人工神经网络模型起源于人类大脑的生物神经网络，参考人类大脑神经元的工作方式。与其他类型的神经网络相比，ANN 只接受数值化的和结构化的输入数据，而其他数据诸如图像，文本，语音信息等输入数据由 CNN, RNN等模型处理。

图1：两层隐藏层的 ANN 结构。

与人类的神经元结构不同，ANN 的主要构成部分是感知机 (perceptron)。一个含有多重感知机的网络被称为 ANN。

理论上，一个 ANN 可以含有任意多层，每一层含有自己的神经元 (neuron)。同时，不同的层可以使用不同的激活函数 (activation function)。

图2：ANN 的 perceptron 结构，这里的激活函数是 step function。

ANN 可以用于分类或者回归，这通过设置相应的激活函数来实现。例如，用于二类分类时，可以使用 Sigmoid 激活函数；用于多类分类时，使用 Softmax 激活函数；用于回归时，使用线性激活函数。

ANN 工作流程

ANN 的工作流程分两部分：前向传播 (forward propagation) 和反向传播 (backward propagation),如下图所示：

图3：ANN 的前向传播和后向传播。

Forward propagation

模型接受输入数据，由感知机对数据进行处理：乘上权重，加上偏差，经过激活函数的变化，并且将输出传入到下一层。

特征值首先乘上权重，并且加上偏差，这个过程其实是一个线性变换过程：

y=β0+β1x1+β2x2+...+βnxn

其中 xi是输入特征值，βi是权重，β0是偏差。y作为输出，是激活函数作用的对象： f(y)。激活函数的使用加入了非线性变换。常用的激活函数有以下几种：

sigmoid function:

f(x)=11+e−x

图4：Sigmoid function

tanh function:

f(x)=tanh(x)=ex−e−xex+e−x

图5：Tanh function

ReLU function: 在应用 back propagation 求最优解的时候，ReLU 主要用于防止 vanishing gradient，但同时又可能会导致 exploding gradient。

f(x)=0,x<0

x,x≥0

图6：ReLU function

Backward propagation

是一个按层的反向的优化过程，用于寻找最优的网络权重参数。这是一个迭代过程，通过对损失函数求偏导，并且不断对参数值进行迭代更新来得到参数的最优解。常用的优化算法有：

- 梯度下降法 (Gradient Descent)：

wnew=wold+v,v=−α∂L∂w

其中 α是学习步长 (learning rate)，L是损失函数。步长的值越大则表示权值调整动作越大。

- 自适应矩估计 (Adam optimizer)：即 Adaptive Moment Estimation，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，每次迭代参数的学习率都有一定的范围，不会因为梯度很大而导致学习率（步长）也变得很大，参数的值相对比较稳定。收敛速度较快，但可能只是收敛到局部最优解。

- Gradient Descent with momentum：加快收敛速度，更多的机会收敛到全局最优解。

wnew=wold+v,v=βv−α∂L∂w

- RMS Prop (Root Mean Square Prop)：RMS Prop增加了一个衰减系数来控制历史信息的获取多少。神经网络都是非凸条件下的，RMSProp在非凸条件下结果更好，改变梯度累积为指数衰减的移动平均以丢弃遥远的过去历史。

损失函数和链条法则

假设 L是损失函数，y是之前的线性变换，a是激活函数。在求解过程中，w是未知变量，即需要求解的最优参数。对 w求偏导数：

∂L∂w=∂L∂a⋅∂a∂y⋅∂y∂w

Vanishing Gradient 和 exploding gradient 可以从链条法则中找到原因。

模型性能度量

度量函数用于度量模型的性能，值得注意的是度量函数和损失函数是不同的，后者在求解模型最优权重的过程中使用。

假设 yi是真实的目标值，y^i是模型的预测值，常用的度量函数有：

- Mean squared logrithmic error:

MSLE=1n∑i=1n[(logyi−1)−(logy^i−1)]2

- Root mean squared logrithmic error

RMSLE=1n∑i=1n[(logyi−1)−(logy^i−1)]2−−−−−−−−−−−−−−−−−−−−−−−−−−√

模型主要参数

模型的主要参数有

- epoch个数：当一个完整的数据通过神经网络的依次训练，这个过程被称为一个 epoch。再实际运用中，训练数据可能是非常庞大的数据集，需要分成多个小块，即 mini batch，来进行训练，每次只有一批数据被模型训练。

另外，在神经网络中训练一次完整的数据集是不够的，而是将完整的数据集在同样的神经网络中传递多次。这个次数称为 epoch 个数。随着epoch数量增加，神经网络中的权重的更新次数也在增加，曲线从欠拟合变得过拟合。

- 层数：一般情形下，增加层数可以提高网络的精度，同时带来更大的计算复杂度。通过增加隐藏层节点数的方法同样可以增加网络精度，并且比增加层数更容易实现。

- 激活函数：激活函数的选择依实际情况而定。

- 神经元个数：和层数一样，依靠经验和实际情况决定。一些可借鉴的经验是：隐藏单元的数量不应该超过输入层中单元的两倍；神经元的数量应捕获输入数据集方差的70~90%。

- 初始权重：除了随机指定的初始值，常用的初始值有：在 sigmoid 和 tanh 激活函数时，使用标准差为 1n√

的高斯分布；在 ReLU 初始值时，使用标准差为 2n−−√

的高斯分布。

- 损失函数：选择依实际情况而定。

- 性能度量：选择依实际情况而定。

- 优化算法：

TensorFlow 的程序实现

以 TensoFlow Keras () 为例，加载软件包：

>>> from tensorflow import keras>>> from tensorflow.keras import layers>>> from tensorflow.keras import callbacks

初始化 ANN 模型

以下例子对模型进行初始化，并建立三个隐藏层 (hidden layer)，最后建立输出层。三个隐藏层的神经元数目分别为 128， 128， 64。最后输出的是实数，因此输出层的神经元数目为 1。

>>> model = keras.Sequential([>>> layers.Dense(128, activation='relu', input_shape=input_shape),>>> layers.Dense(128, activation='relu'),>>> layers.Dense(64, activation='relu'),>>> layers.Dense(1),>>> ])

模型编译

在模型编译步骤中，设置优化算法和损失函数：

>>> model.compile(>>> optimizer='adam',>>> loss='mae')

数据拟合

模型建立以后，用数据对木星进行训练。训练的结果是一个基于数据和 loss function 的最优的模型。这里我们定义 epoch=200, bach_size = 218。假设训练特征值 X 和目标值 y 都已事先读入。

>>> history = model.fit(>>> X, y,>>> batch_size=128,>>> epochs=200)

预测新数据

假设测试数据 test 已经事先读入，用训练好的模型 model 预测新数据的目标值：

>>> predictions = model.predict(test.values)

本文地址：http://www.longkongtuishu.com/ca9d8BA1sBFIFC1VV.html

标签： #cnn等于ann

机器学习: 人工神经网络 (ANN)

常见的神经网络

机器学习: 人工神经网络 (ANN)

机器学习: 卷积神经网络 (CNN)

详解卷积神经网络那点事儿！