当前位置: 首页 > news >正文

长沙企业做网站江北网站制作

长沙企业做网站,江北网站制作,wordpress用哪个版本,怎么做自己微信的网站在数据挖掘比赛中#xff0c;很重要的一个技巧就是要确定训练集与测试集特征是否同分布#xff0c;这也是机器学习的一个很重要的假设[1]。但很多时候我们知道这个道理#xff0c;却很难有方法来保证数据同分布#xff0c;这篇文章就分享一下我所了解的同分布检验方法。封面…在数据挖掘比赛中很重要的一个技巧就是要确定训练集与测试集特征是否同分布这也是机器学习的一个很重要的假设[1]。但很多时候我们知道这个道理却很难有方法来保证数据同分布这篇文章就分享一下我所了解的同分布检验方法。封面电影《红猪红の豚》1. KS检验KS是一种非参数检验方法可以在不知道数据具体分布的情况下检验两个数据分布是否一致。当然这样方便的代价就是当检验的数据分布符合特定的分布事KS检验的灵敏度没有相应的检验来的高。在样本量比较小的时候KS检验作为非参数检验在分析两组数据之间是否不同时相当常用。[2]具体操作方法如下画出数据的累积分段图。举个例子对于数据集 {1.26, 0.34, 0.70, 1.75, 50.57, 1.55, 0.08, 0.42, 0.50, 3.20, 0.15, 0.49, 0.95, 0.24, 1.37, 0.17, 6.98, 0.10, 0.94, 0.38}先对其排序为 {0.08, 0.10, 0.15, 0.17, 0.24, 0.34, 0.38, 0.42, 0.49, 0.50, 0.70, 0.94, 0.95, 1.26, 1.37, 1.55, 1.75, 3.20, 6.98, 50.57}。其中比0.24小的一共有4个占数据集的 1/5所以0.24的累积分布值是0.2依次类推我们可以画出累积分布图。2. 对于累积分布图取Log变换3. 通过两个数据的累积分布图直接最大垂直距离描述两数据的差异实际操作中并不建议自己手写可以直接调用Python scipy库中封装好的函数[3]from scipy.stats import ks_2samp ks_2samp(train[col],test[col]).pvalue2. Overlap Rate对于连续型变量我们可以使用KS检验来检测数据分布是否一致对于类别型变量我们可以对其进行编码然后检测[4]或者选择通过特征重合率来进行检测[5]在高基数变量中此方法经常被用到。通过特征重合率检测的思想是检测训练集特征在测试集中出现的比率举个例子训练集特征[猫狗狗猫狗狗狗猫] 测试集特征[猫猫鱼猪鱼鱼猪猪]即使该特征在训练集表现很好但在测试集上的用处并不大因为重合率仅有1/4反而会导致过拟合或者模型忽略到其他更有用的特征。3. KL散度虽然特征重合率可以筛掉一些不好的特征但是在下面这种情况下覆盖率虽然是100%但是特征的作用并不大训练集特征[猫猫鱼猪鱼鱼猪猪] 测试集特征[猫狗狗狗狗狗狗狗] 该特征在训练集可能有很大的作用但在测试集无法有效的划分样本因为在测试集大多是一样的取值。在这种情况下我第一个想法是在用Overlap Rate筛选过后再计算测试集的信息熵(在决策树中我们提到过信息熵更大代表着可以更好的对样本进行划分)。今天发现有个更好的end-to-end的方法那就是KL散度。KL 散度是一种衡量两个概率分布的匹配程度的指标两个分布差异越大KL散度越大。注意如果要查看测试集特征是否与训练集相同P代表训练集Q代表测试集这个公式对于P和Q并不是对称的。4. KDE 核密度估计KDE核密度估计看起来好像是统计学里面一个高端的非参数估计方法。我简单的理解下哈大概就是通过一个核函数把一个频率分布直方图搞成平滑的了。具体核函数是啥问就是不知道我不是学统计的自己看看叭[6]。我一般都是这么用的从seaborn中找到KDE plot这个方法[7]然后把测试集和训练集的特征画出来看看图像不像不像的直接扔了就行/敷衍。 import numpy as np; np.random.seed(10)import seaborn as sns; sns.set(color_codesTrue)mean, cov [0, 2], [(1, .5), (.5, 1)]x, y np.random.multivariate_normal(mean, cov, size50).Tax sns.kdeplot(x)5. 用机器学习模型检测分布是否一致然后就是这个月我从Kaggle了解的一个惊为天人的方法听完我就惊了。中心思想就是使用特征训练模型来分辨测试集与测试集若模型效果好的话代表训练集和测试集存在较大差异否则代表训练集和测试集分布比较相似。具体做法是构建一个二分类模型对train-set打上0测试集打上1然后shuffle一下进行训练若分类效果好代表训练集和测试集区分度很高那么分布差异就较大[8]。我感觉它最大的价值是针对不同的模型检测分布会得到不同的效果在实践中由于选定了预测模型它对于某个特定场景的适应效果应该比常规的检测方法好很多。由此延申出来我们用训练好的二分类模型对训练集进行预测然后输出预测概率根据这个概率为训练集设置权重概率越接近1代表训练集分布更接近测试集这样就可以强行过拟合到测试集上对于非线上测试型的数据挖掘比赛应该会有比较大的提升参考^为什么要同分布 https://zhuanlan.zhihu.com/p/52530189^KS检验 https://www.cnblogs.com/arkenstone/p/5496761.html^Scipy KS检验 https://docs.scipy.org/doc/scipy-0.19.1/reference/generated/scipy.stats.ks_2samp.html^离散变量编码 https://zhuanlan.zhihu.com/p/87203369^特征重合率 https://zhuanlan.zhihu.com/p/82435050^KDE https://blog.csdn.net/pipisorry/article/details/53635895^KDE Drawer http://seaborn.pydata.org/generated/seaborn.kdeplot.html^Kaggle Adversarial validation https://www.kaggle.com/kevinbonnes/adversarial-validation
http://wiki.neutronadmin.com/news/360599/

相关文章:

  • 建站网站有哪些市场营销的三大战略四大策略
  • 电子商务网站提供的主要功能有成都网站建设询q479185700霸屏
  • 济南网络公司哪家好潍坊百度关键词优化
  • 建设微信网站设计制作磁力猫torrent kitty
  • 四平做网站佳业班级文化墙创意设计图片
  • 注册网站不需要手机验证的wordpress分级访问权限
  • 世界各大网站搜索引擎提交入口开发app的平台
  • 织梦网站模板免费下载龙岩网站开发
  • 建设网站证南宁小程序开发网站建设公司
  • 网站如何被手机端收录培训公司排名
  • 合肥哪里有做网站上海外贸服装
  • 呼和浩特市网站公司电话帝国cms手机网站教程
  • 网站header设计地方网站优势
  • 烟台企业网站建设公司国家外汇管理局网站怎么做报告
  • 网站开发了下载文件需要南宁建筑规划设计集团有限公司
  • 全球电子商务网广州seo优化外包公司
  • 哈尔滨快速建站专业定制关键词组合工具
  • seo技术网站建设如何开发一个app软件
  • 网站建设选哪家跨境电商推广平台
  • 服务器怎么用数据库建设网站wordpress站群作用
  • 政务服务 网站 建设方案wordpress简约灯箱
  • 创建网站数据库十档行情免费网站
  • 网站后端建设网站建设销售话
  • 电子商务网站建设实训方案县级部门和乡镇不能建网站建设
  • 做网站运营的女生多吗温州百度快速排名优化
  • 太原制作网站的公司网站鼓楼公司网站建设费用
  • 做销售用什么网站好wordpress小米商城主题
  • 网站建设 技术建设个人商城网站
  • 旅游网站建设的功能徐州百度搜索优化
  • 厦门网站建设推荐网络维护员是干什么的