机器学习中的欠拟合和过拟合

!文章内容如有错误或排版问题，请提交反馈，非常感谢！

对于深度学习或机器学习模型而言，我们不仅要求它对训练数据集有很好的拟合（训练误差），同时也希望它可以对未知数据集（测试集）有很好的拟合结果（泛化能力），所产生的测试误差被称为泛化误差。度量泛化能力的好坏，最直观的表现就是模型的过拟合（overfitting）和欠拟合（underfitting）。过拟合和欠拟合是用于描述模型在训练过程中的两种状态。一般来说，训练过程会是如下所示的一个曲线图。

训练刚开始的时候，模型还在学习过程中，处于欠拟合区域。随着训练的进行，训练误差和测试误差都下降。在到达一个临界点之后，训练集的误差下降，测试集的误差上升了，这个时候就进入了过拟合区域——由于训练出来的网络过度拟合了训练集，对训练集以外的数据却不work。

欠拟合

当统计模型或机器学习算法无法捕捉数据的潜在趋势时，就会被称为欠拟合。欠拟合会破坏我们机器学习模型的准确性。它的出现仅仅意味着我们的模型或算法不能很好地拟合数据。欠拟合是指模型在训练集、验证集和测试集上均表现不佳的情况。

欠拟合的原因：

模型没有很好地捕捉到数据特征，不能够很好地拟合数据
可能训练样本被提取的特征比较少，导致训练出来的模型不能很好地匹配，表现得很差，甚至样本本身都无法高效的识别。

解决欠拟合的方法

模型复杂化：对同一个算法复杂化。例如回归模型添加更多的高次项，增加决策树的深度，增加神经网络的隐藏层数和隐藏单元数等；弃用原来的算法，使用一个更加复杂的算法或模型。例如用神经网络来替代线性回归，用随机森林来代替决策树等
增加更多的特征: 使输入数据具有更强的表达能力：特征挖掘十分重要，尤其是具有强表达能力的特征，往往可以抵过大量的弱表达能力的特征
调整参数和超参数：超参数包括：神经网络中：学习率、学习衰减率、隐藏层数、隐藏层的单元数、Adam优化算法中的β1和β2参数、batch_size数值等其他算法中：随机森林的树数量，k-means中的cluster数，正则化参数λ等
增加训练数据往往没有用：欠拟合本来就是模型的学习能力不足，增加再多的数据给它训练它也没能力学习好
降低正则化约束：正则化约束是为了防止模型过拟合，如果模型压根不存在过拟合而是欠拟合了，那么就考虑是否降低正则化参数λ或者直接去除正则化项

过拟合

过拟合是指训练误差和测试误差之间的差距太大。换句换说，就是模型复杂度高于实际问题，模型在训练集上表现很好，但在测试集上却表现很差。模型对训练集”死记硬背”（记住了不适用于测试集的训练集性质或特点），没有理解数据背后的规律，泛化能力差。

造成过拟合主要原因：

数据量太小。这个是很容易产生过拟合的一个原因。设想，我们有一组数据很好的吻合3次函数的规律，现在我们局部的拿出了很小一部分数据，用机器学习或者深度学习拟合出来的模型很大的可能性就是一个线性函数，在把这个线性函数用在测试集上，效果可想而知肯定很差了。
训练集和验证集分布不一致。训练集训练出一个适合训练集那样分布的数据集，当你把模型运用到一个不一样分布的数据集上，效果肯定大打折扣。这个是显而易见的。
模型复杂度太大。在选择模型算法的时候，首先就选定了一个复杂度很高的模型，然后数据的规律是很简单的，复杂的模型反而就不适用了。
数据质量很差。数据还有很多噪声，模型在学习的时候，肯定也会把噪声规律学习到，从而减小了具有一般性的规律。这个时候模型用来预测肯定效果也不好。
过度训练。这个是同第4个是相联系的，只要训练时间足够长，那么模型肯定就会把一些噪声隐含的规律学习到，这个时候降低模型的性能是显而易见的。

解决过拟合的方法

获取和使用更多的数据

在数据挖掘领域流行着这样的一句话，”有时候往往拥有更多的数据胜过一个好的模型”。因为我们在使用训练数据训练模型，通过这个模型对将来的数据进行拟合，而在这之间又一个假设便是，训练数据与将来的数据是独立同分布的。即使用当前的训练数据来对将来的数据进行估计与模拟，而更多的数据往往估计与模拟地更准确。因此，更多的数据有时候更优秀。但是往往条件有限，如人力物力财力的不足，而不能收集到更多的数据，如在进行分类的任务中，需要对数据进行打标，并且很多情况下都是人工得进行打标，因此一旦需要打标的数据量过多，就会导致效率低下以及可能出错的情况。所以，往往在这时候，需要采取一些计算的方式与策略在已有的数据集上进行手脚，以得到更多的数据。

通俗得讲，数据机扩增即需要得到更多的符合要求的数据，即和已有的数据是独立同分布的，或者近似独立同分布的。一般有以下方法：

从数据源头采集更多数据
复制原有数据并加上随机噪声
重采样
根据当前数据集估计数据分布参数，使用该分布产生更多数据等

让机器学习或深度学习模型泛化能力更好的办法就是使用更多的数据进行训练。但是，在实践中，我们拥有的数据量是有限的。解决这个问题的一种方法就是创建”假数据”并添加到训练集中——数据集增强。通过增加训练集的额外副本来增加训练集的大小，进而改进模型的泛化能力。

我们以图像数据集举例，能够做：旋转图像、缩放图像、随机裁剪、加入随机噪声、平移、镜像等方式来增加数据量。另外补充一句，在物体分类问题里，CNN在图像识别的过程中有强大的”不变性”规则，即待辨识的物体在图像中的形状、姿势、位置、图像整体明暗度都不会影响分类结果。我们就可以通过图像平移、翻转、缩放、切割等手段将数据库成倍扩充。

重新清洗数据

重新清洗数据：数据清洗从名字上也看的出就是把”脏”的”洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。导致过拟合的一个原因也有可能是数据不纯导致的，如果出现了过拟合就需要我们重新清洗数据。

降低模型复杂度

处理过拟合的第一步就是降低模型复杂度。为了降低复杂度，我们可以简单地移除层或者减少神经元的数量使得网络规模变小。与此同时，计算神经网络中不同层的输入和输出维度也十分重要。虽然移除层的数量或神经网络的规模并无通用的规定，但如果你的神经网络发生了过拟合，就尝试缩小它的规模。

根据奥卡姆剃刀法则：在同样能够解释已知观测现象的假设中，我们应该挑选”最简单”的那一个。对于模型的设计而言，我们应该选择简单、合适的模型解决复杂的问题。

调整参数和超参数

不论什么情况，调参是必须的。

降低特征的数量

对于一些特征工程而言，可以降低特征的数量——删除冗余特征，人工选择保留哪些特征。这种方法也可以解决过拟合问题。

使用集成学习方法

把多个模型集成在一起，降低单个模型的过拟合风险。Bagging和Boosting是机器学习中的集成方法，多个模型的组合可以弱化每个模型中的异常点的影响，保留模型之间的通性，弱化单个模型的特性。

剪枝处理

是决策树中一种控制过拟合的方法。它有预剪枝和后剪枝这两种，常见的是两种方法一起使用。

预剪枝：通过在训练过程中控制树深、叶子节点数、叶子节点中样本的个数等来控制树的复杂度；
后剪枝：在训练好树模型之后，采用交叉验证的方式进行剪枝以找到最优的树模型。

L1/L2正则化

正则化是机器学习中最常见的过拟合解决方法，在损失函数中加入正则项来惩罚模型的参数，以此来降低模型的复杂度，常见的添加正则项的正则化技术有L1，L2正则化。

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓惩罚是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。

关于L1和L2正则，网上的介绍大都围绕以下2张图介绍（左边是L2、右边是L1），蓝色线就是优化过程中遇到的等高线，一圈代表一个目标函数值，圆心就是样本观测值（假设一个样本），半径就是误差值，受限条件就是红色边界（就是正则化那部分），二者相交处，才是最优参数。

L1和L2范数简单来说也就是范数其实在[0,+∞)范围内的值，是向量的投影大小，在机器学习中一般会用于衡量向量的距离。范数有很多种，我们常见的有L1-norm和L2-norm，其实还有L3-norm、L4-norm等等，所以抽象来表示，我们会写作Lp-norm，一般表示为$||x||_p$:

$$||x||_p=(\sum_{i}|x_i|^p)^{1/p}$$

对于上面这个抽象的公式，如果我们代入p值，若p为1，则就是我们常说的L1-norm,若p为2，则是我们常说的L2-norm。

L1和L2范数正则化都有着降低过拟合风险的功能，但它们有什么不同？我们到底应该选择哪一个呢，两者之间各有什么优势和适用场景？

首先，我们从上面那张二维的图可以看出，对于L2-norm，其解是唯一的，也就是绿色的那条；而对于L1-norm，其解不唯一，因此L1正则化项，其计算难度通常会高于L2的。

其次，L1通常是比L2更容易得到稀疏输出的，会把一些不重要的特征直接置零，至于为什么L1正则化为什么更容易得到稀疏解，可以看下图：

上图代表的意思就是目标函数-平方误差项的等值线和L1、L2范数等值线（左边是L1），我们正则化后的代价函数需要求解的目标就是在经验风险和模型复杂度之间的平衡取舍，在图中形象地表示就是黑色线与彩色线的交叉点。

对于L1范数，其图形为菱形，二维属性的等值线有4个角（高维的会有更多），“突出来的角”更容易与平方误差项进行交叉，而这些“突出来的角”都是在坐标轴上，即W1或则W2为0；对于L2范数，交叉点一般都是在某个象限中，很少有直接在坐标轴上交叉的。因此L1范数正则化项比L2的更容易得到稀疏解。如何作选择？

因为L1范数正则化项的“稀疏解”特性，L1更适合用于特征选择，找出较为“关键”的特征，而把一些不那么重要的特征置为零。
L2范数正则化项可以产生很多参数值很小的模型，也就是说这类的模型抗干扰的能力很强，可以适应不同的数据集，适应不同的“极端条件”。一般L2正则应用比较多。

Early stopping（提前终止）

对模型进行训练的过程即是对模型的参数进行学习更新的过程，这个参数学习的过程往往会用到一些迭代方法，如梯度下降（Gradient descent）。Early stopping是一种迭代次数截断的方法来防止过拟合的方法，即在模型对训练数据集迭代收敛之前停止迭代来防止过拟合。

Early stopping方法的具体做法是，在每一个Epoch结束时（一个Epoch集为对所有的训练数据的一轮遍历）计算validation data的accuracy，当accuracy不再提高时，就停止训练。这种做法很符合直观感受，因为accurary都不再提高了，在继续训练也是无益的，只会提高训练的时间。如下图所示，在几次迭代后，即使训练误差仍然在减少，但测验误差已经开始增加了。

那么该做法的一个重点便是怎样才认为validation accurary不再提高了呢？并不是说validation accuracy一降下来便认为不再提高了，因为可能经过这个Epoch后，accuracy降低了，但是随后的Epoch又让accuracy又上去了，所以不能根据一两次的连续降低就判断不再提高。一般的做法是，在训练的过程中，记录到目前为止最好的validation accuracy，当连续10次Epoch（或者更多次）没达到最佳accuracy时，则可以认为accuracy不再提高了。此时便可以停止迭代了（Early Stopping）。这种策略也称为“No-improvement-in-n”，n即Epoch的次数，可以根据实际情况取，如10、20、30……

Dropout

Dropout是深度学习中最常用的控制过拟合的方法，主要用在全连接层处。Dropout方法是在一定的概率上（通常设置为0.5，原因是此时随机生成的网络结构最多）隐式的去除网络中的神经元，具体如下图：

Dropout控制过拟合的思想和机器学习中的集成方法中的bagging类似，在每个batch更新的网络结构都有所不同，也就相当于在训练时有很多个不同的子网络，在每次迭代时dropout的神经元都不一样，因此对于整个模型参数而言，每次都会有一些参数不被训练到。Dropout会导致网络的训练速度慢2、3倍，而且数据小的时候，Dropout的效果并不会太好。因此只会在大型网络上使用。

Dropout为什么有助于防止过拟合呢？

在训练过程中会产生不同的训练模型，不同的训练模型也会产生不同的计算结果。随着训练的不断进行，计算结果会在一个范围内波动，但是均值却不会有很大变化，因此可以把最终的训练结果看作是不同模型的平均输出。
它消除或者减弱了神经元节点间的联合，降低了网络对单个神经元的依赖，从而增强了泛化能力。

机器学习中的欠拟合和过拟合

欠拟合

解决欠拟合的方法

过拟合

解决过拟合的方法

《软件随想录》读书笔记

字符压缩编码之香农-范诺编码（Shannon-Fano Coding）

字符压缩之哈夫曼编码（Huffman Coding）

发表回复取消回复

机器学习中的欠拟合和过拟合

欠拟合

解决欠拟合的方法

过拟合

解决过拟合的方法

《软件随想录》读书笔记

字符压缩编码之香农-范诺编码（Shannon-Fano Coding）

字符压缩之哈夫曼编码（Huffman Coding）

发表回复 取消回复

发表回复取消回复