来自一位数学家的神经网络卷积反向传播研究--粉丝服务平台-粉丝头条-fensifuwu.com

来自一位数学家的神经网络卷积反向传播研究

科技 07-21 来源：芯媒

对于我们这些在数据科学/机器学习社区从事数学严谨的人，找到我们遇到的一些算法/公式的证明可能会令人沮丧。特别是我记得在网上没有成功，所以我认为在这里解释它是有道理的。

这篇文章将关注神经网络卷积层内的反向传播，以及如何计算权重、偏差和输入的梯度. 关于以下证明中的符号，我通常在下标中使用“h”表示像素的“高度”[垂直]坐标，“w”表示“宽度”[横向]坐标（我将使用“b ”和“a”）。图像 I 的左上角像素将表示为 I[0, 0]。同样，内核 K 的左上角像素将表示为 K[0, 0]（我知道这与可能更流行的约定相冲突，其中中心像素的坐标为 [0, 0]，尽管我的约定对齐将数组是如何存储在计算机内存中的，所以用代码来实现会更自然）。对于 I 和 K，将需要更多坐标来说明批次中的通道和图像编号。让我们开始。

介绍

我们将互相关（我通常称之为相关）定义为我们大多数人都熟悉的“滑动核”图；然而，将这种卷积称为卷积是一个误称，因为这需要内核在滑动之前翻转 180 度。

“w”索引输出相关性，即与批次I中图像“w”的相关性，“z”索引A的通道，“y”和“x”分别索引高度和宽度坐标。“k”索引 I 的通道[它们的数量不必与 A 相同，尽管它们确实需要与 K 的数量相同]。“z”、“k”索引内核和通道，“b”、“a”分别索引 K 的高度和宽度坐标。观察到批次 K 中的内核数决定了 A 中的通道数。

我假设读者熟悉诸如步幅和扩张之类的概念，尽管谷歌搜索实际上可以在这种情况下为那些需要复习的人提供帮助。我没有说上述相关性对“y”、“x”的哪些值有效，尽管很容易证明 A 的空间维度为

在括号中，因为它有一个与其值相关联的特殊对象，它是膨胀内核的高度，如果我们用零“代替膨胀”，对于宽度类似物也是如此。

关于内核 K 的损失梯度

让我们 [重新] 定义 A 以包括偏差 E，这是一个给内核批次中每个内核的常数，因此 A 现在代表当前层的输出。

我将使用以下符号来表示上游损失梯度中的一个像素，即损失相对于当前层的输出（互相关）的梯度：

回想一下，上游梯度必须与当前层的输出具有相同的维度，所以上面的定义很好。

为了得到上述，我们简单地取 A 的一个像素（即 A[w, z, y, x] ）关于 K[z_0, k_0, b_0, a_0] 的导数，这给了我们后面的系数那个特定的像素。由于所有索引，上述方程可能需要一些时间来阅读，但最终应该意识到刚刚计算的导数的简单性。另外，请注意，由于我们关心的是关于 K 的通道 z_0 中的像素的梯度，因此删除了对 A 的 D 通道求和。重新排列最后一个表达式给了我们