当前位置: 首页 > news >正文

出口贸易公司网站怎么做开发安卓软件用什么工具

出口贸易公司网站怎么做,开发安卓软件用什么工具,广告优化师属于什么行业,台州网站建设兼职在R中进行基于稳健马氏距离的异常检验 前言 我们研究的数据中经常包含着一些不同寻常的样本#xff0c;这称之为异常值(Outlier)。这些异常值会极大的影响回归或分类的效果。异常值产生的原因有很多#xff0c;其中可能是人为错误、数据测量误差#xff0c;或者是实际确实存…在R中进行基于稳健马氏距离的异常检验 前言   我们研究的数据中经常包含着一些不同寻常的样本这称之为异常值(Outlier)。这些异常值会极大的影响回归或分类的效果。异常值产生的原因有很多其中可能是人为错误、数据测量误差或者是实际确实存在这样的异常。为了使模型能够反映大部分数据的规律所以在数据预处理阶段要进行异常值检测为下一步分析奠定基础。还有一类情况是当研究人员希望发现不平凡的事物时异常值检测本身就是分析的首要目的。例如在信用卡欺诈、计算机入侵检测等问题中。此时由于样本的不平衡性导致一般的分类方法无法使用必须转而考虑异常检测方法。   一种常用的异常检验思路是观察各样本点到样本中心的距离。如果某些样本点的距离太大就可以判断是异常值。这里距离的度量一般使用马氏距离(Mahalanobis Distance)。因为马氏距离不受量纲的影响而且在多元条件下马氏距离还考虑了变量之间的相关性这使得它优于欧氏距离。   但是传统的马氏距离检测方法是不稳定的因为个别异常值会把均值向量和协方差矩阵向自己方向吸引这样算出来的样本马氏距离起不了检测异常值的所用。所以首先要利用迭代的思想构造一个稳健的均值和协方差矩阵估计量然后计算稳健马氏距离(Robust Mahalanobis Distance)。这样使得异常值能够正确地被识别出来。   在mvoutlier包中提供了基于稳健马氏距离的异常值检验方法。我们首先构造一个二维变量的人工数据其中80个样本是标准正态分布另一小撮别有用心的样本是均值为5标准差为1的观测值。我们首先使用uni.plot函数在一维空间中观察这个数据。 library(mvoutlier)set.seed(1234)x - cbind(rnorm(80), rnorm(80))y - cbind(rnorm(10, 5, 1), rnorm(10, 5, 1))z - rbind(x,y)# 一维数据的异常检验res1 - uni.plot(z)# 返回异常值的编号which(res1$outliersT)################################ library(mvoutlier) set.seed(1234) x - cbind(rnorm(80), rnorm(80)) y - cbind(rnorm(10, 5, 1), rnorm(10, 5, 1)) z - rbind(x,y) # 一维数据的异常检验 res1 - uni.plot(z) # 返回异常值的编号 which(res1$outliersT)[1] 20 62 81 82 83 84 85 86 87 88 89 90   上图中红色点表示疑似异常值因为它偏离均值太远。更多时候我们会处理多元异常检测问题此时用aq.plot函数来实行基于稳健马氏距离的异常值检验方法。下图中左上角图形为原始数据右上角图形的X轴为各样本的稳健马氏距离排序Y轴为距离的经验分布红色曲线为卡方分布蓝色垂线表示阀值在阀值右侧的样本判断为异常值。左下和右下两张图均是用不同颜色来表示异常值只是阀值略有不同。可以观察到那一小撮异常值被正确的判断出来但也有两个正常值被误判为异常值此时需要调整参数。 # 基于稳健马氏距离的多元异常值检验res2 -aq.plot(z)# 返回异常值的编号which(res2$outliersT)################################ res2 -aq.plot(z) which(res2$outliersT)[1] 20 62 81 82 83 84 85 86 87 88 89 90   如果数据的维数过高例如基因数据那样几千个变量数据之间变得稀疏从而使得距离不再有很大意义。此时可以融合主成分降维的思路来进行异常值检验。mvoutlier包中提供了pcout函数来进行高维空间异常检验。下面是以swiss数据集为例来判断异常值。 # 在高维空间中的异常值检验data(swiss)res3 - pcout(swiss)# 返回异常值的编号which(res3$wfinal010)################################ # 在高维空间中的异常值检验 data(swiss) res3 - pcout(swiss) # 返回异常值的编号 which(res3$wfinal010)Delemont Franches-Mnt Porrentruy Broye Glane 2 3 6 7 8 Gruyere Sarine Veveyse La Vallee Conthey 9 10 11 19 31 Entremont Herens Martigwy Monthey St Maurice 32 33 34 35 36 Sierre Sion V. De Geneve 37 38 45 参考资料 R语言处理异常值1R语言处理异常值2转载于:https://www.cnblogs.com/cloudtj/articles/5520230.html
http://wiki.neutronadmin.com/news/22208/

相关文章:

  • 备案的网站建设书是什么ci框架建设网站
  • 做ppt常用图片网站有哪些wordpress 加载页面
  • 手机网站设计知识天津工程信息建设网
  • 网站根域名是什么做算命类网站违法吗?
  • 建设俄语2p2网站上海今天最新发布会
  • 自己 做网站企业网络的规划与设计
  • 做自己的网站怎么赚钱wordpress头像网站
  • 谷歌云做网站长安网站建设推广公司
  • 重庆新闻第一眼搜索引擎优化策略不包括
  • 做壁画的网站拓者设计吧室内设计官网案例
  • 个人网站怎样申请耐看舒适的网页设计欣赏
  • 音乐建设网站网站充值平台怎么做的
  • 什么网站可以查建设用地规划许可证wordpress前端获取头像
  • ps如何做ppt模板下载网站专业装修别墅
  • 聊城做网站厉害的公司做旅行社网站多少钱
  • 线上推广方案ppt关键词优化seo费用
  • 莱芜网站建设哪里有女性门户网站织梦模板
  • wordpress 在线pdf河西网站建设优化seo
  • 最专业的网站建设公司哪家好天助网的网站
  • 广州建筑公司网站石狮seo
  • 买的网站模板怎么上传河北邢台房价多少钱一平方
  • 驻马店建设网站网页设计与制作论文2000字
  • 网站维护流程图wordpress pdf
  • 张家港百度网站推广网站优化哪个公司好
  • 人人设计网官方网站沈阳今天最新通知
  • 有什么专门做电子琴音乐的网站淘宝联盟优惠券网站建设
  • 网站建设标准合同书网站怎样设计网址
  • 网上做家教的网站如何进行网络营销
  • 怎么查网站建设时间公司企业网站建设教程
  • 做网站费用上海好的做网站的