9.1 梯度下降陷阱_企业级AI技术内幕：深度学习框架开发+机器学习案例实战+Alluxio解密-QQ阅读中文都市网

上QQ阅读APP看书，第一时间看更新

9.1　梯度下降陷阱

接下来我们来看梯度下降过程中有可能导致的各种问题：

第一种问题，如图9-5所示，变化率可能一开始太陡峭了，导致调整的时候从左侧一下跳到了右侧，又从右侧一下跳到了左侧，然后又从左侧跳到了右侧，始终不能趋近底部，这是很可能发生的情况。即使有更多的训练数据，也无法达到变化率为0的点，这是比较糟糕的状况。尤其变化率非常陡峭时，一下从最左侧跳到最右侧，又一下从最右侧跳到最左侧……，结果是离底部越来越远，这是个悲剧，花了很大的精力且用了很多的数据，训练出来的偏差实质上越来越大，这不是我们希望看见的。对于这种情况，我们要怎么处理？这是神经元网络必须解决的最基本的问题。按照我们最原始的算法，要调整的时候可以想到很多办法，如果梯度步伐太大，容易出一些问题，将步伐调小一点就行了。例如，在每次调整权重的时候要减去变化率，那么将变化率乘以一个系数α，系数α为0～1，就可以有效解决面临的问题。

图9-6是优化以后的状态。我们将变化率乘以一个系数α，α一般设置为0.1、0.01等，就能有效避免步伐过大的问题。首先计算当前状态的变化率，然后使用当前的权重减去变化率与系数α的乘积，x=x–(α*slope)，一直训练到变化率等于0。

在梯度下降过程中，第一种问题是步伐过大，步伐不合适会导致圆点永远不能到达底部。第二种问题是局部最小值，图9-6所示的梯度下降过程非常单纯，只有一个最低点，但生产环境中数据的维度可能很多，在进行收敛的时候可能会到达一个局部的最小值，如图9-7所示，这种情况处理起来较麻烦。

图9-5　变化率陡峭

图9-6　用变化率乘以系数来优化

如图9-8所示，我们要克服将局部的最低点误认为是全局的最低点问题。将收敛的空间划分成5个部分，找出每个部分的局部最低点，也就是变化率为0的状态。找到5个部分中每一个变化率为0的状态以后，进行比较，找到全局最低点，这是比较朴素的思路。

图9-7　局部最小值

图9-8　多个局部最低点

第三个问题，在梯度下降过程中，步伐可能太小，步伐如果太小，就像人走路，每步本来可以移动50cm，但是如果担心下一步掉到悬崖，就小心翼翼，每步只移动1mm，这就太夸张了。图9-9描述了这种情况，这也是很不好的一种情况，因为资源是很昂贵的，计算时间特别长，训练结果又不太好，步伐太大时在更新权重的时候，是每次乘以一个系数α（α为0～1），这里做优化时也要乘以一个α，不过这里的α值不是0～1，而是要大于1。

图9-9　步伐过小的问题

以上是梯度下降可能出现问题的三种情况，我们提出相应的解决方案，一般是由算法来支撑解决。