像堆乐高一样：从零开始解释神经网络的数学过程

发布时间：2019-07-12 16:27:28 所属栏目：建站来源：机器之心编译

导读：副标题#e# 神经网络是线性模块和非线性模块的巧妙排列。当聪明地选择并连接这些模块时，我们就得到了一个强大的工具来逼近任何一个数学函数，如一个能够借助非线性决策边界进行分类的神经网络。运行代码的步骤如下： gitclonehttps://github.com/omar-flor

计算用于更新第一个隐藏层 W_1 权重的链式规则就展现了重复使用已有计算结果的可能。

更直观地，从输出层到权重 W_1 的路径会碰到在后面层中早已计算出来的偏导数。

像堆乐高一样：从零开始解释神经网络的数学过程

例如，偏导数 dLoss/dh_2 和 dh_2/dz_2 在上一节中已经被计算为输出层 dLoss/dW_2 学习权值的依赖项。

像堆乐高一样：从零开始解释神经网络的数学过程

将所有的导数放在一起，我们就能够再一次执行链式法则，来为隐藏层的 W_1 更新权重。

像堆乐高一样：从零开始解释神经网络的数学过程

最后，我们给权重赋予新的数值，完成了对神经网络的一步训练。

像堆乐高一样：从零开始解释神经网络的数学过程

实现

让我们仅使用 numpy 作为线性代数引擎来将上面的数学方程转换成代码。神经网络在一个循环中进行训练，其中每次迭代会给神经网络展示标准的输入数据。在这个小例子中，我们只考虑每次迭代中的整个数据集。前向步骤、损失函数和反向步骤的计算会得到比较好的泛化，因为我们在每一次循环中都用它们对应的梯度(矩阵 dL_dw1 和 dL_dw2)来更新可训练的参数。

代码保存在这个 repo 中：https://github.com/omar-florez/scratch_mlp

像堆乐高一样：从零开始解释神经网络的数学过程

让我们来运行这份代码!

下面可以看到一些进行了好多次迭代训练得到的能够近似异或函数的神经网络

。像堆乐高一样：从零开始解释神经网络的数学过程

左图：准确率;中间的图：学习到的决策边界;右图：损失函数

首先，我们来看一下隐藏层具有 3 个神经元的神经网络为何能力较弱。这个模型学会了用一个简单的决策边界来进行二分类，这个边界开始是一条直线，但是随后就表现出了非线性的行为。随着训练的持续，右图中的损失函数也明显地减小。

隐藏层拥有 50 个神经元的神经网络明显地增加了模型学习复杂决策边界的能力。这不仅仅能够得到更准确的结果，而且也使梯度发生了爆炸，这是训练神经网络时的一个显著问题。当梯度非常大的时候，反向传播中的连乘会产生很大的更新权重。这就是最后几步训练时损失函数突然增大的原因(step>90)。损失函数的正则项计算出了已经变得很大的权重的平方值(sum(W²)/2N)。

正如你所看到的一样，这个问题可以通过减小学习率来避免。可以通过实现一个能够随着时间减小学习率的策略来实现。或者通过强制执行一个更强的正则化来实现，可能是 L1 或者 L2。梯度消失和梯度爆炸是很有趣的现象，我们后续会做完整的分析。

原文链接：

https://medium.com/towards-artificial-intelligence/one-lego-at-a-time-explaining-the-math-of-how-neural-networks-learn-with-implementation-from-scratch-39144a1cf80

【本文是51CTO专栏机构“机器之心”的原创译文，微信公众号“机器之心( id: almosthuman2014)”】

戳这里，看该作者更多好文

（编辑：PHP编程网 - 襄阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

直接影响网站的索引和	避免网站受清风算法闪
从广度优化抓取策略研	图片的优化对于搜索引