当前位置：首页 > news >正文

陕西住房与建设厅网站成都住建局官网查询入口

news 2025/12/27 12:14:56

陕西住房与建设厅网站,成都住建局官网查询入口,宿迁房产网,摄影网站设计理念注#xff1a; 文章中所有的图片均来自台湾大学林轩田《机器学习基石》课程。笔记原作者#xff1a;红色石头微信公众号#xff1a;AI有道上节课主要介绍了非线性分类模型#xff0c;通过非线性变换#xff0c;将非线性模型映射到另一个空间#xff0c;转换为线性模型…注文章中所有的图片均来自台湾大学林轩田《机器学习基石》课程。笔记原作者红色石头微信公众号AI有道上节课主要介绍了非线性分类模型通过非线性变换将非线性模型映射到另一个空间转换为线性模型再来进行分类分析了非线性变换可能会使计算复杂度增加。本节课介绍这种模型复杂度增加带来机器学习中一个很重要的问题过拟合overfitting。一、What is Overfitting 首先我们通过一个例子来介绍什么bad generalization。假设平面上有5个点目标函数\(f(x)\)是2阶多项式如果hypothesis是二阶多项式加上一些小的noise的话那么这5个点很靠近这个hypothesis \(E_{in}\)很小。如果hypothesis是4阶多项式那么这5点会完全落在hypothesis上\(E_{in}0\) 。虽然4阶hypothesis的\(E_{in}\)比2阶hypothesis的要好很多但是它的\(E_{out}\)很大。因为根据VC Bound理论阶数越大即VC Dimension越大就会让模型复杂度更高 \(E_{out}\)更大。我们把这种\(E_{in}\)很小 \(E_{out}\)很大的情况称之为bad generation即泛化能力差。回过头来看一下VC曲线 hypothesis的阶数越高表示VC Dimension越大。随着VC Dimension增大 \(E_{in}\)是一直减小的而\(E_{out}\)先减小后增大。在\(d^*\)位置\(E_{out}\)取得最小值。在\(d^*_{VC}\)右侧随着VC Dimension越来越大\(E_{in}\)越来越小接近于0 \(E_{out}\)越来越大。即当VC Dimension很大的时候这种对训练样本拟合过分好的情况称之为过拟合overfitting。另一方面在\(d^*_{VC}\)左侧随着VC Dimension越来越小\(E_{in}\)和\(E_{out}\)都越来越大这种情况称之为欠拟合underfitting即模型对训练样本的拟合度太差VC Dimension太小了。 bad generation和overfitting的关系可以理解为overfitting是VC Dimension过大的一个过程bad generation是overfitting的结果。一个好的fit \(E_{in}\)和\(E_{out}\)都比较小尽管\(E_{in}\)没有足够接近零而对overfitting来说\(E_{in}\approx 0\)但是\(E_{out}\)很大。那么overfitting的原因有哪些呢举个开车的例子把发生车祸比作成overfitting那么造成车祸的原因包括车速太快VC Dimension 太大道路崎岖noise对路况的了解程度训练样本数量\(N\)不够也就是说VC Dimension、noise、\(N\)这三个因素是影响过拟合现象的关键。二、The Role of Noise and Data Size 为了尽可能详细地解释overfitting我们进行这样一个实验试验中的数据集不是很大。首先在二维平面上一个模型的分布由目标函数\(f(x)\)\(x\)的10阶多项式加上一些noise构成下图中离散的圆圈是数据集目标函数是蓝色的曲线。数据没有完全落在曲线上是因为加入了noise。然后同样在二维平面上另一个模型的分布由目标函数\(f(x)\)\(x\)的50阶多项式构成没有加入noise。下图中离散的圆圈是数据集目标函数是蓝色的曲线。可以看出由于没有noise数据集完全落在曲线上。现在有两个学习模型一个是2阶多项式另一个是10阶多项式分别对上面两个问题进行建模。首先对于第一个目标函数是10阶多项式包含noise的问题这两个学习模型的效果如下图所示由上图可知2阶多项式的学习模型\(E_{in}0.050\)\(E_{out}0.127\)10阶多项式的学习模型\(E_{in}0.034\)\(E_{out}9.00\) 。虽然10阶模型的\(E_{in}\)比2阶的\(E_{in}\)小但是其\(E_{out}\)要比2阶的大得多而2阶的\(E_{in}\)和\(E_{out}\)相差不大很明显用10阶的模型发生了过拟合。然后对于第二个目标函数是50阶多项式没有noise的问题这两个学习模型的效果如下图所示可以看到用10阶的模型仍然发生了明显的过拟合。上面两个问题中10阶模型都发生了过拟合反而2阶的模型却表现得相对不错。这好像违背了我们的第一感觉比如对于目标函数是10阶多项式加上noise的模型按道理来说应该是10阶的模型更能接近于目标函数因为它们阶数相同。但是事实却是2阶模型泛化能力更强。这种现象产生的原因从哲学上来说就是“以退为进”。有时候简单的学习模型反而能表现的更好。下面从learning curve来分析一下具体的原因learning curve描述的是\(E_{in}\)和\(E_{out}\)随着数据量\(N\)的变化趋势。下图中左边是2阶学习模型的learning curve右边是10阶学习模型的learning curve。在learning curve中横轴是样本数量\(N\)纵轴是Error。\(E_{in}\)和\(E_{out}\)可表示为\[E_{in}noiselevel *(1-\frac{d1}{N})\] \[E_{out}noiselevel *(1\frac{d1}{N})\] 其中\(d\)为模型阶次左图中\(d2\)右图中\(d10\)。本节的实验问题中数据量\(N\)不大即对应于上图中的灰色区域。左图的灰色区域中因为\(d2\) \(E_{in}\)和\(E_{out}\)相对来说比较接近右图中的灰色区域中\(d10\)根据\(E_{in}\)和\(E_{out}\)的表达式 \(E_{in}\)很小而\(E_{out}\)很大。这就解释了之前2阶多项式模型的\(E_{in}\)更接近\(E_{out}\)泛化能力更好。值得一提的是如果数据量\(N\)很大的时候上面两图中\(E_{in}\)和\(E_{out}\)都比较接近但是对于高阶模型z域中的特征很多的时候需要的样本数量\(N\)很大且容易发生维度灾难。另一个例子中目标函数是50阶多项式且没有加入noise(noiselevel很小)。这种情况下我们发现仍然是2阶的模型拟合的效果更好一些明明没有noise为什么是这样的结果呢实际上我们忽略了一个问题这种情况真的没有noise吗其实当模型很复杂的时候即50阶多项式的目标函数无论是2阶模型还是10阶模型都不能学习的很好这种复杂度本身就会引入一种‘noise’。所以这种高阶无noise的问题也可以类似于10阶多项式的目标函数加上noise的情况只是二者的noise有些许不同下面一部分将会详细解释。三、Deterministic Noise 下面我们介绍一个更细节的实验来说明什么时候要小心overfit会发生。假设我们产生的数据分布由两部分组成第一部分是目标函数\(f(x)\)\(Q_f\)阶多项式第二部分是噪声\(\epsilon\)服从Gaussian分布。接下来我们分析的是noise强度不同对overfitting有什么样的影响。总共的数据量是\(N\)。那么下面我们分析不同的\((N,\sigma^2)\)和\((N,Q_f)\)对overfit的影响。overfit可以量化为\(E_{out}-E_{in}\)。结果如下上图中红色越深代表overfit程度越高蓝色越深代表overfit程度越低。先看左边的图左图中阶数固定为20横坐标代表样本数量\(N\)纵坐标代表噪声水平\(\sigma^2\)。红色区域集中在\(N\)很小或者\(\sigma^2\)很大的时候也就是说\(N\)越大\(\sigma^2\) 越小越不容易发生overfit。右边图中横坐标代表样本数量\(N\)纵坐标代表目标函数阶数\(Q_f\)。红色区域集中在\(N\)很小或者\(Q_f\)很大的时候也就是说\(N\)越大\(Q_f\) 越小越不容易发生overfit。上面两图基本相似。从上面的分析我们发现\(\sigma^2\)对overfit是有很大的影响的我们把这种noise称之为stochastic noise。同样地 \(Q_f\)即模型复杂度也对overfit有很大影响而且二者影响是相似的所以我们把这种称之为deterministic noise。之所以把它称为noise是因为模型高复杂度带来的影响。总结一下有四个因素会导致发生overfitting data size \(N\) \(\downarrow\)stochastic noise \(\sigma^2\) \(\uparrow\)deterministic noise \(Q_f\) \(\uparrow\)excessive power \(\uparrow\)我们刚才解释了如果目标函数\(f(x)\)的复杂度很高的时候那么跟有noise也没有什么两样。因为目标函数很复杂那么再好的hypothesis都会跟它有一些差距我们把这种差距称之为deterministic noise。deterministic noise与stochastic noise不同但是效果一样。其实deterministic noise类似于一个伪随机数发生器它不会产生真正的随机数而只产生伪随机数。它的值与hypothesis有关且固定点\(x\)的deterministic noise值是固定的。四、Dealing with Overfitting 现在我们知道了什么是overfitting和overfitting产生的原因那么如何避免overfitting呢避免overfitting的方法主要包括 start from simple model (\(Q_f\))data cleaning/pruning (noise)data hinting (\(N\))regularizationvalidation这几种方法类比于之前举的开车的例子对应如下 regularization和validation我们之后的课程再介绍本节课主要介绍简单的data cleaning/pruning和data hinting两种方法。 data cleaning/pruning就是对训练数据集里label明显错误的样本进行修正data cleaning或者对错误的样本看成是noise进行剔除data pruning。data cleaning/pruning关键在于如何准确寻找label错误的点或者是noise的点而且如果这些点相比训练样本\(N\)很小的话这种处理效果不太明显。 data hinting是针对\(N\)不够大的情况如果没有办法获得更多的训练集那么data hinting就可以对已知的样本进行简单的处理、变换从而获得更多的样本。举个例子数字分类问题可以对已知的数字图片进行轻微的平移或者旋转从而让\(N\)丰富起来达到扩大训练集的目的。这种额外获得的例子称之为virtual examples。但是要注意一点的就是新获取的virtual examples可能不再是iid某个distribution。所以新构建的virtual examples要尽量合理且是独立同分布。五、总结本节课主要介绍了overfitting的概念即当\(E_{in}\)很小\(E_{out}\) 很大的时候会出现overfitting。详细介绍了overfitting发生的四个常见原因data size \(N\)、stochastic noise、deterministic noise和excessive power。解决overfitting的方法有很多本节课主要介绍了data cleaning/pruning和data hinting两种简单的方法之后的课程将会详细介绍regularization和validation两种更重要的方法。转载于:https://www.cnblogs.com/SweetZxl/p/10799182.html

查看全文

http://wiki.neutronadmin.com/news/262334/