深度学习中的拟合欠拟合、过拟合、正则化

2020-07-09 原文

摘自https://testerhome.com/topics/10811

偏差(欠拟合)和方差(过拟合)

要解释这两个现象比较复杂，先从下面的图说起吧。

我们不论在逻辑回归，线性回归还是在神经网络中应用的都是线性函数。也就是我们一开始的公式：y=wx + b。也就是我们上图最左边的图片中，是一条直线。分类算法比较直观一点的理解就是要在坐标空间中找到一个最适合的直线，让每个样本所在的点离这条线最近。但是直线的表达能力是有限的，就像上面最左边的图中一样，一条直线并不能很好的区分圆圈和叉叉，这时候我们会发现在训练集上训练的效果不好，也就是准确率不高，我们称这种情况为高偏差，也叫欠拟合。我们希望效果能像中间的图一样，是一条曲线，能够有效的增加正确率。所以这时候激活函数出马了，我们在第一篇帖子中就写了激活函数其实并不是在激活什么，而是为我们的线性方程增加非线性效果。它为我们拟合了更好的效果。但有时候如果激活函数过度拟合就会产生上图中最后边的情况。它拟合了一个非常复杂的线，这种情况的表现就是它的效果在训练集上非常好，误差很小。但实际在测试集上表现的就很差。例如我们在训练集上的误差1%，而在测试集上额误差达到了15%。这是因为我们的线拟合的很复杂，很好的契合了训练集的数据分布，但是到了测试集的时候数据分布就不是这么回事了。那么如果出现了欠拟合或者过拟合该怎么办呢。通常的做法如下：

对于欠拟合: 增加神经网络复杂度，出现欠拟合的原因之一是由于函数的非线性不足，所以用更复杂的网络模型进行训练来加深拟合。
对于过拟合：增加数据规模，出现过拟合的原因之一是数据规模不足而造成的数据分布不均，扩展数据规模能比较好的解决这个问题。当然另一个做法是正则化，下面我们将正则化

正则化 λ

有些时候扩展数据规模是很难的，所以我们采取使用正则化来解决过拟合问题，常用的是L2正则，其他的还有L1和 Dropout正则。这里主要说一下L2正则的原理，看下图：

这是我们加了正则化之后的成本函数，可以看我们后面加入了正则化 λ 的表达式来完善成本函数。为什么加入λ能够减轻过拟合呢？直观一点的解释是设置的λ值越大，那么参数w的值就会被压缩的越小(在梯度下降中,每次迭代的步长，也就是这个公式w=w - 学习率*成本函数对w的导数，现在由于成本函数增加了正则项，使得J和w变得数值相关了)。假设λ设置的足够大，那么w会无限的趋近于0. 把多隐藏层的单元的权重设置为0以后，那么基本上就是消除掉了这些单元的作用，而使得网络模型得到简化，就像下面的图一样。由于正则化的设置，消除了一些隐藏单元的作用。而使得整个模型越来越接近于线性化，也就是从下图中的过拟合往欠拟合偏转。当然我们有一个适合的λ的值，能让我们的拟合状态达到最佳。　所以我们在训练模型的时候，往往都会有一个Ｌ２正则项的超参数需要我们设置。

更直观一点解释看下图：

这是我们的tanh激活函数，可以看到当z的值越大时，整个函数的非线性就越大，而z的值越小(图中红色加粗部分),函数就越是呈现出线性分布。所以当我们增加λ的值， w得值就越小，相应的z的值也就越小。因为z = wx + b。而我们第一次说激活函数的时候就说过神经网络中基本上是不使用线性函数作为激活函数的，因为不论有多少层，多少个单元，线性激活函数会使得所有单元所计算的都呈现线性状态。

深度学习中的拟合欠拟合、过拟合、正则化的更多相关文章

基于canvas使用贝塞尔曲线平滑拟合折线段的方法

这篇文章主要介绍了基于canvas使用贝塞尔曲线平滑拟合折线段的方法的相关资料，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
Android中的自然语言处理API

我正在尝试制作类似于thiswebsite的Android应用程序.问题是我对自然语言处理领域很陌生.我不希望实现太多,只是提供用户与应用程序的一些交互,给他一种感觉,他确实在与某人聊天.基本上,我只是捕获用户输入的文本并将其发送到API并显示从API检索的结果.我遇到了http://opennlp.apache.org/和http://gate.ac.uk/,但不知道如何在我的Android应用
python机器学习GCN图卷积神经网络原理解析

这篇文章主要为大家介绍了GCN图卷积神经网络原理及代码解析，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
Pytorch深度学习addmm()和addmm_()函数用法解析

这篇文章主要为大家介绍了Pytorch中addmm()和addmm_()函数用法解析,有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
Pytorch深度学习经典卷积神经网络resnet模块训练

这篇文章主要介绍了Pytorch深度学习经典卷积神经网络resnet模块训练，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
正则化DropPath/drop_path用法示例(Python实现)

DropPath 类似于Dropout,不同的是 Drop将深度学习模型中的多分支结构随机"失效",而Dropout是对神经元随机"失效"这篇文章主要给大家介绍了关于正则化DropPath/drop_path用法的相关资料,需要的朋友可以参考下
python深度学习tensorflow卷积层示例教程

这篇文章主要为大家介绍了python深度学习tensorflow卷积层示例教程，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
PyTorch深度学习LSTM从input输入到Linear输出

这篇文章主要为大家介绍了PyTorch深度学习LSTM从input输入到Linear输出深入理解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
python深度学习tensorflow安装调试教程

这篇文章主要为大家介绍了python深度学习tensorflow安装调试教程示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
PHP机器学习库php-ml的简单测试和使用方法

下面小编就为大家带来一篇PHP机器学习库php-ml的简单测试和使用方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧

随机推荐

法国电话号码的正则表达式

我正在尝试实施一个正则表达式,允许我检查一个号码是否是一个有效的法国电话号码.一定是这样的：要么：这是我实施的但是错了……
正则表达式 – perl分裂奇怪的行为

PSperl是5.18.0问题是量词*允许零空间,你必须使用,这意味着1或更多.请注意,F和O之间的空间正好为零.
正则表达式 – 正则表达式大于和小于

我想匹配以下任何一个字符：或=或=.这个似乎不起作用：[/]试试这个：它匹配可选地后跟=,或者只是=自身.
如何使用正则表达式用空格替换字符之间的短划线

我想用正则表达式替换出现在带空格的字母之间的短划线.例如,用abcd替换ab-cd以下匹配字符–字符序列,但也替换字符[即ab-cd导致d,而不是abcd,因为我希望]我如何适应以上只能取代–部分？
正则表达式 – /bb | [^ b] {2} /它是如何工作的？

有人可以解释一下吗？我在t-shirt上看到了这个：它似乎在说：“成为或不成为”怎么样？我好像没找到’e’？
正则表达式 – 在Scala中验证电子邮件一行

在我的代码中添加简单的电子邮件验证,我创建了以下函数：这将传递像bob@testmymail.com这样的电子邮件和bobtestmymail.com之类的失败邮件,但是带有空格字符的邮件会漏掉,就像bob@testmymail也会返回true.我可能在这里很傻……当我测试你的正则表达式并且它正在捕捉简单的电子邮件时,我检查了你的代码并看到你正在使用findFirstIn.我相信这是你的问题.findFirstIn将跳转所有空格,直到它匹配字符串中任何位置的某个序列.我相信在你的情况下,最好使用unapp
正则表达式对小字符串的暴力

在测试小字符串时,使用正则表达式会带来性能上的好处,还是会强制它们更快？不会通过检查给定字符串的字符是否在指定范围内比使用正则表达式更快来强制它们吗？
正则表达式 – 为什么`stoutest`不是有效的正则表达式？

isthedelimiter,thenthematch-only-onceruleof?PATTERN?
正则表达式 – 替换..与.在R

我怎样才能替换..我尝试过类似的东西：但它并不像我希望的那样有效.尝试添加fixed=T.
正则表达式 – 如何在字符串中的特定位置添加字符？

我正在使用记事本,并希望使用正则表达式替换在字符串中的特定位置插入一个字符.例如,在每行的第6位插入一个逗号是什么意思？如果要在第六个字符后添加字符,请使用搜索和更换从技术上讲,这将用MatchGroup1替换每行的前6个字符,后跟逗号.