人工神经网络 (Artificial Neural Networks, ANN)：神经网络是由具有适应性的简单单元组成的广泛并行互联的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。

1 神经元模型

人工神经网络的最小单位是神经元，其结构模拟了生物的神经元，具体结构如下：

图中左侧 $a_{1}, a_{2}, \dots, a_{n}$ 代表了上一层神经元的输出，箭头上的数 $w_{1}, w_{2}, \dots, w_{n}$ 代表上一层每一个神经元的连接权重， $b$ 代表偏置， $f (\cdot)$ 代表激活函数， $t$ 代表该神经元的输出。对于上面的符号，它们之间的关系是：

$t = f (\sum_{i = 1}^{n} w_{i} a_{i} + b)$

写成向量形式：

$t = f (w^{T} x + b)$

其中激活函数 $f (\cdot)$ 有很多选择，如：

函数名	表达式	取值范围
Sigmoid	$f (x) = \frac{1}{1 + \exp (- x)}$	$(0, 1)$
ReLU	$f (x) = max {0, x}$	$[0, \infty)$
tanh	$f (x) = \frac{\exp (x) - \exp (- x)}{\exp (x) + \exp (- x)}$	$(- 1, 1)$

2 网络结构

ANN 的结构种类有很多种，本轮讨论最经典的结构：多层前馈神经网络。它的结构特点是每层神经元与下一层神经元完全互联，神经元之间不存在同层连接，也不存在跨层连接。它包含三个层次，分别为输入层、隐藏层、输出层，输入层神经元接受外界输入，隐层和输出层神经元对信号进行处理加工，由输出层神经元输出。

一个简单的多层前馈神经网络如下：

从左到右分别是输入层、隐藏层、输出层，箭头上的数字代表连接权重 $w$ ，节点上的数字代表偏置 $b$ ， $x_{1}, x_{2}$ 为两个输入的数， $y$ 为输出的数。该网络可以对下面的四个数据进行分类，其中蓝色区域代表 $+$ 类，其他代表 $-$ 类。

实际情况下，神经网络的结构不会这么简单，它的输入和输出节点数都可能很多，这样它的求解能力更强。例如下面的这个神经网络，接下来的文章将会以它作为例子：

该神经网络输入层有 $d$ 个神经元，隐藏层有 $q$ 个神经元，输出层有 $l$ 个神经元。

输入层：输入和输出第 $i$ 个神经元的数据记为 $x_{i}$ .
输入层 $\to$ 隐藏层：输入层第 $i$ 个神经元 $\to$ 隐藏层第 $j$ 个神经元的连接权值记为 $v_{i j}$ .
隐藏层：输入第 $j$ 个神经元的值记为 $α_{j} = \sum_{i = 1}^{d} v_{i j} x_{i}$ ，偏置为 $γ_{j}$ ，输出为 $b_{j} = f (α_{j} + γ_{j})$ .
隐藏层 $\to$ 输出层：隐藏层第 $j$ 个神经元 $\to$ 输出层第 $k$ 个神经元的连接权值记为 $w_{j k}$ .
输出层：输入第 $k$ 个神经元的值记为 $β_{k} = \sum_{j = 1}^{q} w_{j k} b_{j}$ ，偏置为 $θ_{k}$ ，输出为 $y_{k} = f (β_{k} + θ_{k})$ .

其中，激活函数 $f (\cdot)$ 选择 Sigmoid 函数： $f (x) = \frac{1}{1 + e^{- x}}$

综上，该神经网络接受的输入为 $x_{d \times 1}$ ，输出为 $y_{l \times 1}$ ，网络中包含的参数有：

$v_{d \times q}$ ：输入层到隐藏层的权值矩阵
$γ_{q \times 1}$ ：隐藏层的偏置向量
$w_{q \times l}$ ：隐藏层到输出层的权值矩阵
$θ_{l \times 1}$ ：输出层的偏置向量

参数量为 $d q + q + q l + l$

3 误差逆传播算法

神经网络要学习的实际上就是网络中的参数值，具体来说就是连接权值与偏置。我们需要找到一个合理的方法，通过输入的训练样本数据和样本标记，让神经网络自适应地学习出可以正确分类训练样本。后续就可以使用训练得到的参数，对实际数据进行分类。

误差逆传播 (error BackPropagation, BP) 算法是一个非常有代表的学习算法，利用它进行学习的神经网络叫做 BP 神经网络。

它分为两个阶段：

数据流的正向传播：将数据样本输入神经网络，求解出输出。
误差信号的反向传播：将输出与样本标签对比，将误差反向传播到每一个节点得到它们需要更新的梯度。

对于每一个训练样例，都会进行上面两个操作（实际的顺序和批次方式可以变化），对于正向传播过程，没有什么难点，就是 $t = f (w^{T} x + b)$ 代进去算出结果来。

该算法核心在于误差的反向传播。首先需要计算误差值，这里使用均方误差 (Mean Squared Error, MSE). 对于第 $p$ 个训练样本 $(x_{p}, y_{p})$ ，如果神经网络的输出为 ${\hat{y}}_{p} = ({\hat{y}}_{1}^{(p)}, {\hat{y}}_{2}^{(p)}, \dots, {\hat{y}}_{l}^{(p)})$ ，那么均方误差为：

$E_{p} = \frac{1}{2} \sum_{j = 1}^{l} ({\hat{y}}_{j}^{(p)} - y_{j}^{(p)})^{2}$

表达式中的 $1 / 2$ 只是为了便于求导时消去 $2$ ，它对误差的相对大小没有影响。
下面我们默认讨论第 $p$ 个训练样本 $(x_{p}, y_{p})$ ，省略 $p$ 角标。

3.1 更新 $w$

对于 $w_{j k}$ 它的更新是：

$w_{j k} \leftarrow w_{j k} + Δ w_{j k}$

BP 算法使用梯度下降策略进行更新，给定学习率 $η$ ，具体的更新公式为：

$w_{j k} \leftarrow w_{j k} - η \frac{\partial E_{p}}{\partial w_{j k}}$

对于 $w_{j k}$ ，可以从网络结构上看到，然后作为求和中的一项影响到 $β_{k}$ 的值，然后作为激活函数的自变量影响到 ${\hat{y}}_{k}$ 的值，误差的传递是一个链式的，因此可以用链式求导：

$\frac{\partial E_{p}}{\partial w_{j k}} = \frac{\partial E_{p}}{\partial {\hat{y}}_{k}} \cdot \frac{\partial {\hat{y}}_{k}}{\partial β_{k}} \cdot \frac{\partial β_{k}}{\partial w_{j k}}$

对于第一项：

$\begin{aligned} \frac{\partial E_{p}}{\partial {\hat{y}}_{k}} & = \frac{1}{2} \frac{\partial}{\partial {\hat{y}}_{k}} \sum_{j = 1}^{l} ({\hat{y}}_{j} - y_{j})^{2} \\ = \frac{1}{2} (2 {\hat{y}}_{k} - 2 y_{k}) \\ = {\hat{y}}_{k} - y_{k} \end{aligned}$

对于第二项：

$\frac{\partial {\hat{y}}_{k}}{\partial β_{k}} = {\hat{y}}_{k} (1 - {\hat{y}}_{k})$

这里能直接转换成这个样子的原因是，对于 Sigmoid 函数 $f (x) = \frac{1}{1 + e^{- x}}$ ，它的导数值 $f^{'} (x) = f (x) (1 - f (x))$ .

对于第三项：

$\begin{aligned} \frac{\partial β_{k}}{\partial w_{j k}} & = \frac{\partial}{\partial w_{j k}} \sum_{i = 1}^{q} w_{i k} b_{i} \\ = b_{j} \end{aligned}$

为了简便，我们将第一项与第二项的积记为 $g_{k}$ ：

$g_{k} = ({\hat{y}}_{k} - y_{k}) \cdot {\hat{y}}_{k} (1 - {\hat{y}}_{k})$

综上：

$Δ w_{j k} = - η g_{k} b_{j}$

3.2 更新 $θ$

对于 $θ_{k}$ ，它的更新是：

$Δ θ_{k} = - η \frac{\partial E_{p}}{\partial θ_{k}}$

链式求导：

$\frac{\partial E_{p}}{\partial θ_{k}} = \frac{\partial E_{p}}{\partial {\hat{y}}_{k}} \cdot \frac{\partial {\hat{y}}_{k}}{\partial θ_{k}}$

对于第二项：

$\frac{\partial {\hat{y}}_{k}}{\partial θ_{k}} = {\hat{y}}_{k} (1 - {\hat{y}}_{k})$

综上：

$Δ θ_{k} = - η g_{k}$

3.3 更新 $v$

对于 $v_{i j}$ ，它的更新是：

$Δ v_{i j} = - η \frac{\partial E_{p}}{\partial v_{i j}}$

链式求导：

$\frac{\partial E_{p}}{\partial v_{i j}} = \sum_{k = 1}^{l} (\frac{\partial E_{p}}{\partial {\hat{y}}_{k}} \cdot \frac{\partial {\hat{y}}_{k}}{\partial β_{k}} \cdot \frac{\partial β_{k}}{\partial b_{j}}) \cdot \frac{\partial b_{j}}{\partial α_{j}} \cdot \frac{\partial α_{j}}{\partial v_{i j}}$

这里为什么多出来了个一个求和？原因是输入层 $\to$ 隐藏层的连接权重会影响到所以输出层节点，所以每个输出层节点的误差都得传递先传递到隐藏层，如下图所示：

对于求和符号里的第三项：

$\begin{aligned} \frac{\partial β_{k}}{\partial b_{j}} & = \frac{\partial}{\partial b_{j}} \sum_{j = 1}^{q} w_{j k} b_{j} \\ = w_{j k} \end{aligned}$

对于求和符号外面的第一项：

$\frac{\partial b_{j}}{\partial α_{j}} = b_{j} (1 - b_{j})$

对于求和符号外面的第二项：

$\begin{aligned} \frac{\partial α_{j}}{\partial v_{i j}} & = \frac{\partial}{\partial v_{i j}} \sum_{i = 1}^{d} v_{i j} x_{i} \\ = x_{i} \end{aligned}$

为了简便，我们把求和符号和外面的第一项记为 $e_{j}$ ：

$\begin{aligned} e_{j} & = \sum_{k = 1}^{l} (\frac{\partial E_{p}}{\partial {\hat{y}}_{k}} \cdot \frac{\partial {\hat{y}}_{k}}{\partial β_{k}} \cdot \frac{\partial β_{k}}{\partial b_{j}}) \cdot \frac{\partial b_{j}}{\partial α_{j}} \\ = \sum_{k = 1}^{l} (g_{k} \cdot w_{j k}) \cdot b_{j} (1 - b_{j}) \end{aligned}$

综上：

$Δ v_{i j} = - η e_{j} x_{i}$

3.4 更新 $γ$

对于 $γ_{j}$ ，它的更新是：

$Δ γ_{j} = - η \frac{\partial E_{p}}{\partial γ_{j}}$

链式求导：

$\frac{\partial E_{p}}{\partial γ_{j}} = \sum_{k = 1}^{l} (\frac{\partial E_{p}}{\partial {\hat{y}}_{k}} \cdot \frac{\partial {\hat{y}}_{k}}{\partial β_{k}} \cdot \frac{\partial β_{k}}{\partial b_{j}}) \cdot \frac{\partial b_{j}}{\partial γ_{j}}$

对于求和符号外面的第一项：

$\frac{\partial b_{j}}{\partial γ_{j}} = b_{j} (1 - b_{j})$

综上：

$Δ γ_{j} = - η e_{j}$

3.5 总结

BP 算法的流程如下：

输入：训练集 $D = {(x_{p}, y_{p})}_{p = 1}^{m}$ ; 学习率 $η$ .
过程：
1. 在 $(0, 1)$ 范围随机初始化网络中的所有参数
2. repeat
3. for all $(x_{p}, y_{p}) \in D$ do
4. 使用当前参数计算出当前样本输出 ${\hat{y}}_{p}$
5. 计算出 $g_{k}, e_{j}$
6. 计算出 $Δ w_{j k}, Δ θ_{k}, Δ v_{i j}, Δ γ_{j}$ 并更新参数值
7. end for
8. until 达到停止条件
输出：参数确定的 BP 神经网络

其中：

$\begin{aligned} {\begin{cases} g_{k} = ({\hat{y}}_{k} - y_{k}) \cdot {\hat{y}}_{k} (1 - {\hat{y}}_{k}) \\ e_{j} = \sum_{k = 1}^{l} (g_{k} \cdot w_{j k}) \cdot b_{j} (1 - b_{j}) \end{cases} \\ {\begin{cases} Δ w_{j k} = - η g_{k} b_{j} \\ Δ θ_{k} = - η g_{k} \\ Δ v_{i j} = - η e_{j} x_{i} \\ Δ γ_{j} = - η e_{j} \end{cases} \end{aligned}$

4 代码实现

以下是我使用 C++ 编写的简单神经网络的源代码，可以和上文的公式对照学习：

https://github.com/ChrisKimZHT/Neural-Net-cpp

文章目录

机器学习 | BP 神经网络

1 神经元模型

2 网络结构

3 误差逆传播算法

3.1 更新 $w$

3.2 更新 $θ$

3.3 更新 $v$

3.4 更新 $γ$

3.5 总结

4 代码实现

添加新评论

最新文章

分类

标签

其它

机器学习 | BP 神经网络

1 神经元模型

2 网络结构

3 误差逆传播算法

3.1 更新 w

3.2 更新 θ

3.3 更新 v

3.4 更新 γ

3.5 总结

4 代码实现

添加新评论

最新文章

分类

标签

其它

3.1 更新 $w$

3.2 更新 $θ$

3.3 更新 $v$

3.4 更新 $γ$