当前位置：首页 > news >正文

营销网站建设品牌企业苏州建设项目备案网站

news 2025/12/31 20:01:16

营销网站建设品牌企业,苏州建设项目备案网站,wordpress 文档导入数据库,微信分销系统源码众所周知#xff0c;反向传播算法很难调试得到正确结果#xff0c;尤其是当实现程序存在很多难于发现的bug时。举例来说#xff0c;索引的缺位错误#xff08;off-by-one error#xff09;会导致只有部分层的权重得到训练#xff0c;再比如忘记计算偏置项。这些错误会使你… 众所周知反向传播算法很难调试得到正确结果尤其是当实现程序存在很多难于发现的bug时。举例来说索引的缺位错误off-by-one error会导致只有部分层的权重得到训练再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果但实际上比正确代码的结果要差。因此但从计算结果上来看我们很难发现代码中有什么东西遗漏了。本节中我们将介绍一种对求导结果进行数值检验的方法该方法可以验证求导代码是否正确。另外使用本节所述求导检验方法可以帮助你提升写正确代码的信心。缺位错误Off-by-one error举例说明比如循环中循环次正确应该是但有时程序员疏忽会写成这就是缺位错误。假设我们想要最小化以为自变量的目标函数。假设则。在一维的情况下一次迭代的梯度下降公式是再假设我们已经用代码实现了计算的函数接着我们使用来实现梯度下降算法。那么我们如何检验的实现是否正确呢回忆导数的数学定义那么对于任意值我们都可以对等式左边的导数用来近似。实际应用中我们常将设为一个很小的常量比如在数量级虽然的取值范围可以很大但是我们不会将它设得太小比如因为那将导致数值舍入误差。给定一个被认为能计算的函数我们可以用下面的数值检验公式计算两端是否一样来检验函数是否正确。上式两端值的接近程度取决于的具体形式。但是在假定的情况下你通常会发现上式左右两端至少有4位有效数字是一样的通常会更多。现在考虑是一个向量而非一个实数那么就有个参数要学习得到并且。在神经网络的例子里我们使用可以想象为把参数组合扩展成一个长向量。现在我们将求导检验方法推广到一般化即是一个向量的情况。假设我们有一个用于计算的函数我们想要检验是否输出正确的求导结果。我们定义其中是第个基向量维度和相同在第行是“”而其他行是“”。所以和几乎相同除了第行元素增加了。类似地得到的第行减小了。然后我们可以对每个检查下式是否成立进而验证的正确性当用反射传播算法求解神经网络时正确算法实现会得到以上结果与反向传播算法中的最后一段伪代码一致都是计算梯度下降。为了验证梯度下降代码的正确性使用上述数值检验方法计算的导数然后验证与是否能够给出正确的求导结果。迄今为止我们的讨论都集中在使用梯度下降法来最小化。如果你已经实现了一个计算和的函数那么其实还有更精妙的算法来最小化。举例来说可以想象这样一个算法它使用梯度下降并能够自动调整学习速率以得到合适的步长值最终使能够快速收敛到一个局部最优解。还有更妙的算法比如可以寻找一个Hessian矩阵的近似得到最佳步长值使用该步长值能够更快地收敛到局部最优和牛顿法类似。此类算法的详细讨论已超出了这份讲义的范围但是L-BFGS算法我们以后会有论述另一个例子是共轭梯度算法。你将在编程练习里使用这些算法中的一个。使用这些高级优化算法时你需要提供关键的函数即对于任一个需要你计算出和。之后这些优化算法会自动调整学习速率/步长值的大小并计算Hessian近似矩阵等等来自动寻找最小化时的值。诸如L-BFGS和共轭梯度算法通常比梯度下降法快很多。中英文对照 off-by-one error 缺位错误 bias term 偏置项 numerically checking 数值检验 numerical roundoff errors 数值舍入误差 significant digits 有效数字 unrolling 组合扩展 learning rate 学习速率 Hessian matrix Hessian矩阵 Newtons method 牛顿法 conjugate gradient 共轭梯度 step-size 步长值

查看全文

http://wiki.neutronadmin.com/news/401806/