当前位置: 首页 > news >正文

列车营销网站怎么做精品网站建设费用磐石网络名气

列车营销网站怎么做,精品网站建设费用磐石网络名气,太原网络搭建,wordpress自动tag1、Boosting算法 Boosting算法是通过串联的方式#xff0c;将一组弱学习器提升为强学习器算法。它的工作机制如下#xff1a; #xff08;1#xff09;用初始训练集训练出一个基学习器#xff1b; #xff08;2#xff09;依据基学习器的表现对训练样本分布进行调整将一组弱学习器提升为强学习器算法。它的工作机制如下 1用初始训练集训练出一个基学习器 2依据基学习器的表现对训练样本分布进行调整使得之前做错的训练样本在之后中得到最大的关注 3用调整后的样本分布进行下一个基学习器 4重复2-3的步骤直到基学习器的数量达到了指定的T值后 5将T个基学习器进行加权组合得到集成的学习器。 而根据策略不同会有Adaboost和GBDT、XGBoost三种常见的Boosting算法。 2、Adaboost算法 Adaboost强调Adaptive(自适应)通过不断修改样本权重增大分错样本权重降低分对样本权重不断加入弱分类器进行boosting。它的核心步骤为以下两个 权值调整提高上一轮错误分类的样本权值降低正确分类的样本权值从而使得错误分类的样本在下一轮基分类器中获得更大的关注。 基分类器组合采用加权多数表决的方法即加大分类误差小的分类器权值减少误差大的分类器权值。 Adaboost的步骤和考虑点和Boosting算法一致步骤也基本一致。 Adaboost算法特点 可以使用各种方法构建子分类器本身提供框架子分类器容易构建速度快不怎么调节参数泛化错误率低 3、GBDT算法 GBDT是旨在不断减少残差回归通过不断加入新的树旨在在残差减少负梯度的方向上建立一个新的模型。——即损失函数是旨在最快速度降低残差。为了得到残差所有的决策树都是使用CART回归树。其中Shrinkage(缩减)是GBDT的一个重要分支它通过每次走小步的方式来逼近真实的结果这种方式可以有效减少过拟合的风险因为每棵树的只学习一小部分累加的结果也是这小部分的内容通过多学习几棵树来逼近目标。 残差真实值与预测值的差值。 基本原理 1训练一个模型m1(20岁)产生错误e1(10岁) 2针对e1训练第二个模型m2(6岁)产生错误e2(4岁) 3针对e2训练第三个模型m3(3岁)产生错误e3(3岁) 4针对e3训练第四个模型m4(1岁)… 5最终的预测结果为m1m2m3m4 2063130岁 当然实际的流程中不会只对一个特征进行预测实际的GBDT的过程会像下面类似的不同的特征进行预测然后对于每棵树的结果给予不同的权重最后将不同树相加 GBDT特点 优点 预测阶段因为每棵树的结构都已确定可并行化计算计算速度快。适用稠密数据泛化能力和表达能力都不错数据科学竞赛榜首常见模型。可解释性不错鲁棒性亦可能够自动发现特征间的高阶关系。 缺点 GBDT在高维稀疏的数据集上效率较差且效果表现不如SVM或神经网络。适合数值型特征在NLP或文本特征上表现弱。训练过程无法并行工程加速只能体现在单颗树构建过程中。 问题1为什么不用CART分类树呢 GBDT每次的迭代要拟合的是梯度值所以要用连续值的回归树 问题2回归树和分类树的区别 1.对于回归树来说最重要的是寻找最佳的划分点而划分点包含了所有特征的可取值。 2.分类树的最佳划分点都是熵或者基尼系数也就说用纯度来衡量但回归树的样本中都是连续标签值用熵就不合适用平方误差能够更好的拟合。 4、XGBOOST算法 XGBOOST的原理跟GBDT差不多它是经过优化的分布式梯度提升库同时还是大规模并行boosting tree的工具。 XGBOOST和GBDT的区别 CART树复杂度XGBoost考虑了树的复杂度而GBDT为考虑损失函数XGBoost是拟合上一轮损失函数的二阶导展开而GBDT是上一轮损失函数的一阶导所以前者的准确性和迭代次数较少多线程XGBoost在选取最佳切分点时开启多线程进行运行速度更快。 LightGBM算法 微软开源的一个梯度提升框架主要体现在高效并行训练速度比XGBoost快10倍内存占用率为后者的1/6。它主要是通过以下方式来进行优化的 基于Histogram直方图的决策树算法对Histogram直方图做差加速使用带深度限制的leaf-wise的叶子生长策略直接支持类别特征直接支持高效并行。 基于Histogram直方图的决策树算法 简单理解就是把连续值离散化为k个整数从而构造一个直方图那么在遍历数据的时候也是直接对直方图遍历寻找最优的划分点。这样虽然在一定程度上降低了精确性但在内存消耗和计算速度上得到了很大的优化同时由于决策树本身是弱模型划分点的精确性影响不大而且还能有效防止过拟合。 对Histogram直方图做差加速 通常构造直方图需要遍历叶子上的所有数据但通过对直方图做差只需要遍历直方图的k个桶。这样在构造一个叶子的直方图后很容易就能得到兄弟叶子的直方图速度又可以提升一倍。 带深度限制的leaf-wise的叶子生长策略 XGBoost采用level-wise的叶子生长策略它可以进行多线程优化也能控制模型复杂度不容易过拟合但它对同一层的叶子一视同仁会导致很多增益低的也进行分裂和搜索这就会带来很多没必要的开销。 lightGBM采用leaf-wise的叶子生成策略它是找到叶子分裂增益最大的那个进行分裂。这种方法在相同分裂次数的情况下该方法误差更低精度也更高。但相应的可能会产生太深的决策树从而产生过拟合因此需要增加一个最大深度限制。 直接支持类别特征 一般机器学习工具需要将类别特征转化为数值特征这降低了空间和时间的效率而lightGBM可以直接输入类别特征。 直接支持高效并行 特征并行在每台机器上保存全部训练数据不用进行数据垂直划分在得到最佳划分后直接在本地执行不用在机器之间进行通信。 数据并行将直方图合并的任务分给不同的机器降低通信和计算并利用直方图做差进一步减少通信量。 投票并行通过本地找出TOP k特征这些基于投票筛选出来的特征可能是最优划分点那么在合并的时候也只合并筛选出来的特征从而降低通信。 lightGBM的特点 优点 速度快遍历直方图降低时间复杂度使用leaf-wise算法减少大量计算采用特征并行、数据并行和投票并行加快计算对缓存进行优化增加缓存命中率。内存小使用直方图算法将特征转变为bin值少记录索引减少内存消耗将特征存储变为存储bin值减少内存消耗采用互斥特征捆绑算法减少特征数量。 缺点 可能会长出较深的决策树产生过拟合需要使用深度限制防止过拟合传统boosting算法通过迭代会让误差越来越小而lightGBM基于偏差算法对噪点比较敏感没有将最优解的全部特征考虑进去会出现考虑不全的情况。
http://wiki.neutronadmin.com/news/335853/

相关文章:

  • 如何将网站让百度收录网络营销试卷
  • 用c 可以做网站吗园林公司做网站的好处
  • 网站建设项目执行进度表网上注册平台怎么注册
  • 外贸营销型网站2018软件开发定制费用
  • 做网站需要的程序数据线东莞网站建设技术支持
  • 视频付费网站建设网站建设主持词
  • 凡客网站登陆东莞好的网站建设公司
  • wordpress自动发布网站深圳公司排名名字
  • 重庆企业做网站制作网站的模板下载软件
  • 青岛网站建设制作公司如何实现网站的伪静态
  • 网站博客怎么做网站活动策划怎么做
  • 长沙医考网站建设公司江苏工程造价信息网官网
  • 企业微信开放平台api朝阳seo搜索引擎
  • 网站编程培训网站开发工程师需要什么证书
  • 网站建设厃金手指花总十一wordpress 9gag主题
  • 织梦网站分享插件宁波建站价格
  • 企业网站建设公司有哪些临沂龙文网站建设
  • 佛山网站制作专家济南建站公司网站
  • 商丘做网站一般多少钱廊坊市网站建设
  • 网站建设需要矢量文件邯郸房产网官网
  • 建设银行官网站下载地址spam free wordpress
  • 网站到底怎么做出来的搜索引擎优化方案案例
  • 西宁做网站公司电话山东省和住房城乡建设厅网站
  • wordpress链接mysql枣庄网站seo
  • 网店网站技术方案和男人人做的网站
  • 浅谈营销型网站建设的市场费用wordpress 档案插件
  • 温州市城建设计院网站做响应式网站的流程
  • 数字校园建设专题网站app程序定制开发
  • 设计专业招聘网站网络营销模式的有形收益包括
  • 汇创建站做封面下载网站