当前位置: 首页 > news >正文

深圳市做门窗网站有哪些推广漂亮的flash网站

深圳市做门窗网站有哪些推广,漂亮的flash网站,网上建立网站赚钱,实时积分榜在数据挖掘比赛中#xff0c;很重要的一个技巧就是要确定训练集与测试集特征是否同分布#xff0c;这也是机器学习的一个很重要的假设[1]。但很多时候我们知道这个道理#xff0c;却很难有方法来保证数据同分布#xff0c;这篇文章就分享一下我所了解的同分布检验方法。封面…在数据挖掘比赛中很重要的一个技巧就是要确定训练集与测试集特征是否同分布这也是机器学习的一个很重要的假设[1]。但很多时候我们知道这个道理却很难有方法来保证数据同分布这篇文章就分享一下我所了解的同分布检验方法。封面电影《红猪红の豚》1. KS检验KS是一种非参数检验方法可以在不知道数据具体分布的情况下检验两个数据分布是否一致。当然这样方便的代价就是当检验的数据分布符合特定的分布事KS检验的灵敏度没有相应的检验来的高。在样本量比较小的时候KS检验作为非参数检验在分析两组数据之间是否不同时相当常用。[2]具体操作方法如下画出数据的累积分段图。举个例子对于数据集 {1.26, 0.34, 0.70, 1.75, 50.57, 1.55, 0.08, 0.42, 0.50, 3.20, 0.15, 0.49, 0.95, 0.24, 1.37, 0.17, 6.98, 0.10, 0.94, 0.38}先对其排序为 {0.08, 0.10, 0.15, 0.17, 0.24, 0.34, 0.38, 0.42, 0.49, 0.50, 0.70, 0.94, 0.95, 1.26, 1.37, 1.55, 1.75, 3.20, 6.98, 50.57}。其中比0.24小的一共有4个占数据集的 1/5所以0.24的累积分布值是0.2依次类推我们可以画出累积分布图。2. 对于累积分布图取Log变换3. 通过两个数据的累积分布图直接最大垂直距离描述两数据的差异实际操作中并不建议自己手写可以直接调用Python scipy库中封装好的函数[3]from scipy.stats import ks_2samp ks_2samp(train[col],test[col]).pvalue2. Overlap Rate对于连续型变量我们可以使用KS检验来检测数据分布是否一致对于类别型变量我们可以对其进行编码然后检测[4]或者选择通过特征重合率来进行检测[5]在高基数变量中此方法经常被用到。通过特征重合率检测的思想是检测训练集特征在测试集中出现的比率举个例子训练集特征[猫狗狗猫狗狗狗猫] 测试集特征[猫猫鱼猪鱼鱼猪猪]即使该特征在训练集表现很好但在测试集上的用处并不大因为重合率仅有1/4反而会导致过拟合或者模型忽略到其他更有用的特征。3. KL散度虽然特征重合率可以筛掉一些不好的特征但是在下面这种情况下覆盖率虽然是100%但是特征的作用并不大训练集特征[猫猫鱼猪鱼鱼猪猪] 测试集特征[猫狗狗狗狗狗狗狗] 该特征在训练集可能有很大的作用但在测试集无法有效的划分样本因为在测试集大多是一样的取值。在这种情况下我第一个想法是在用Overlap Rate筛选过后再计算测试集的信息熵(在决策树中我们提到过信息熵更大代表着可以更好的对样本进行划分)。今天发现有个更好的end-to-end的方法那就是KL散度。KL 散度是一种衡量两个概率分布的匹配程度的指标两个分布差异越大KL散度越大。注意如果要查看测试集特征是否与训练集相同P代表训练集Q代表测试集这个公式对于P和Q并不是对称的。4. KDE 核密度估计KDE核密度估计看起来好像是统计学里面一个高端的非参数估计方法。我简单的理解下哈大概就是通过一个核函数把一个频率分布直方图搞成平滑的了。具体核函数是啥问就是不知道我不是学统计的自己看看叭[6]。我一般都是这么用的从seaborn中找到KDE plot这个方法[7]然后把测试集和训练集的特征画出来看看图像不像不像的直接扔了就行/敷衍。 import numpy as np; np.random.seed(10)import seaborn as sns; sns.set(color_codesTrue)mean, cov [0, 2], [(1, .5), (.5, 1)]x, y np.random.multivariate_normal(mean, cov, size50).Tax sns.kdeplot(x)5. 用机器学习模型检测分布是否一致然后就是这个月我从Kaggle了解的一个惊为天人的方法听完我就惊了。中心思想就是使用特征训练模型来分辨测试集与测试集若模型效果好的话代表训练集和测试集存在较大差异否则代表训练集和测试集分布比较相似。具体做法是构建一个二分类模型对train-set打上0测试集打上1然后shuffle一下进行训练若分类效果好代表训练集和测试集区分度很高那么分布差异就较大[8]。我感觉它最大的价值是针对不同的模型检测分布会得到不同的效果在实践中由于选定了预测模型它对于某个特定场景的适应效果应该比常规的检测方法好很多。由此延申出来我们用训练好的二分类模型对训练集进行预测然后输出预测概率根据这个概率为训练集设置权重概率越接近1代表训练集分布更接近测试集这样就可以强行过拟合到测试集上对于非线上测试型的数据挖掘比赛应该会有比较大的提升参考^为什么要同分布 https://zhuanlan.zhihu.com/p/52530189^KS检验 https://www.cnblogs.com/arkenstone/p/5496761.html^Scipy KS检验 https://docs.scipy.org/doc/scipy-0.19.1/reference/generated/scipy.stats.ks_2samp.html^离散变量编码 https://zhuanlan.zhihu.com/p/87203369^特征重合率 https://zhuanlan.zhihu.com/p/82435050^KDE https://blog.csdn.net/pipisorry/article/details/53635895^KDE Drawer http://seaborn.pydata.org/generated/seaborn.kdeplot.html^Kaggle Adversarial validation https://www.kaggle.com/kevinbonnes/adversarial-validation
http://wiki.neutronadmin.com/news/120601/

相关文章:

  • 不懂代码怎么做网站有了域名之后怎么做网站
  • 谷歌网站为什么打不开上海做兼职上哪个网站
  • 做外贸仿牌网站wordpress怎么破解
  • 做网站和小程序的区别摄影网页设计方案
  • 大兴做网站wordpress例行维护
  • 怎样做自己的销售网站6西安性价比高的装修公司
  • 做网站写页面多少钱广州安全教育平台登录
  • 福建福清市住房和建设局网站建筑工程网上流程工作失误
  • 做网站登入见面文字排版都用哪些网站
  • 网站备案花钱么做视频网站要多大的服务器
  • 网站开发公司会计处理qq网页版手机版
  • 商务网站内容维护和管理的范围蒙牛网站建设报价情况
  • 网站图片设计制作网站搜索引擎优化是什么
  • 简述从网站规划的角度常见的网站模式网站开发制作公司排行
  • 合肥快速建站在线咨询在线crm系统功能模块分析
  • 义乌购物网站建设多少钱洛阳信息网
  • 网站备案 谁接入谁负责河北省住房和城乡建设厅网站
  • 梭子手做鱼网站杭州企业推广网站
  • 电子商务企业网站建设实训报告谈谈你在建设主题资源网站时
  • 网站怎么做页面解析跳转珠海公司做网站
  • seo快速排名首页长沙网站优化推广方案
  • 漯河市万金镇网站建设做网站学什么代码
  • 搭建网站多少钱自动提取关键词的软件
  • 食品企业网站建设方案怎么用小旋风网站建设教程
  • 网站模版 之星万方网官网入口
  • 外贸做网站的好处看广告得收益的app
  • 有哪个网站可以查别人做没做过牢吗太原关键词优化服务
  • 网站开发语言怎么查最新国际军事动态和军事战争
  • 免费网站服务器2020wordpress 设置多域名 一个站点
  • 攻略网站的建设如何加快门户网站建设