当前位置: 首页 > news >正文

网站 易用性原则苏州网站建设网

网站 易用性原则,苏州网站建设网,信阳电子商务网站建设,采集wordpress文章上传机器学习入门系列#xff08;2#xff09;–如何构建一个完整的机器学习项目#xff0c;第三篇#xff01; 该系列的前两篇文章#xff1a; 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一)机器学习数据集的获取和测试集的构建方法 分别介绍了确定项目终极目…机器学习入门系列2–如何构建一个完整的机器学习项目第三篇 该系列的前两篇文章 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一)机器学习数据集的获取和测试集的构建方法 分别介绍了确定项目终极目标、选择损失函数、获取数据以及构建测试集接下来在进入选择算法和训练模型之前一个很重要的步骤就是特征工程它包括了对数据的预处理、特征提取、特征分析以及特征构建等几个步骤可以说能否训练一个好的模型除了选择合适的算法准备好数据也是非常关键的 由于篇幅问题所以这篇文章先介绍如何处理缺失值和图片数据扩充的问题下一篇文章会介绍处理异常值和类别不平衡的问题。 3 特征工程 何为特征工程呢顾名思义就是对原始数据进行一系列工程处理将其提炼为特征作为输入供算法和模型使用。 本质上讲特征工程是一个表示和展现数据的过程实际工作中特征工程的目的是去除原始数据中的杂质和冗余设计更高效的特征以刻画求解的问题与预测模型之间的关系。 特征工程的重要性有以下几点 特征越好灵活性越强。好的特征的灵活性在于它允许你选择不复杂的模型同时运行速度也更快也更容易和维护。特征越好构建的模型越简单。好的特征可以在参数不是最优的情况依然得到很好的性能减少调参的工作量和时间也就可以大大降低模型复杂度。特征越好模型的性能越出色。特征工程的目的本来就是为了提升模型的性能。 3.1 数据预处理 首先需要对数据进行预处理一般常用的两种数据类型 结构化数据。结构化数据可以看作是关系型数据库的一张表每列都有清晰的定义包含了数值型和类别型两种基本类型每一行数据表示一个样本的信息。非结构化数据。主要是文本、图像、音频和视频数据其包含的信息无法用一个简单的数值表示也没有清晰的类别定义并且每个数据的大小互不相同。 这里主要介绍结构化数据和图像数据两种数据的数据预处理方法。 3.1.1 处理缺失值 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失两者都会造成分析结果的不准确。 缺失值产生的原因 信息暂时无法获取或者获取信息的代价太大。信息被遗漏人为的输入遗漏或者数据采集设备的遗漏。属性不存在在某些情况下缺失值并不意味着数据有错误对一些对象来说某些属性值是不存在的如未婚者的配偶姓名、儿童的固定收入等。 缺失值的影响 数据挖掘建模将丢失大量的有用信息。数据挖掘模型所表现出的不确定性更加显著模型中蕴含的规律更难把握。包含空值的数据会使建模过程陷入混乱导致不可靠的输出。 缺失值的处理方法 直接使用含有缺失值的特征当仅有少量样本缺失该特征的时候可以尝试使用删除含有缺失值的特征这个方法一般适用于大多数样本都缺少该特征且仅包含少量有效值是有效的插值补全缺失值 最常使用的还是第三种插值补全缺失值的做法这种做法又可以有多种补全方法。 均值/中位数/众数补全 如果样本属性的距离是可度量的则使用该属性有效值的平均值来补全 如果样本属性的距离不可度量则可以采用众数或者中位数来补全。 同类均值/中位数/众数补全 对样本进行分类后根据同类其他样本该属性的均值补全缺失值当然同第一种方法类似如果均值不可行可以尝试众数或者中位数等统计数据来补全。 固定值补全 利用固定的数值补全缺失的属性值。 建模预测 利用机器学习方法将缺失属性作为预测目标进行预测具体为将样本根据是否缺少该属性分为训练集和测试集然后采用如回归、决策树等机器学习算法训练模型再利用训练得到的模型预测测试集中样本的该属性的数值。 这个方法根本的缺陷是如果其他属性和缺失属性无关则预测的结果毫无意义但是若预测结果相当准确则说明这个缺失属性是没必要纳入数据集中的一般的情况是介于两者之间。 高维映射 将属性映射到高维空间采用独热码编码one-hot技术。将包含 K 个离散取值范围的属性值扩展为 K1 个属性值若该属性值缺失则扩展后的第 K1 个属性值置为 1。 这种做法是最精确的做法保留了所有的信息也未添加任何额外信息若预处理时把所有的变量都这样处理会大大增加数据的维度。这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值缺点是计算量大大提升且只有在样本量非常大的时候效果才好。 多重插补 多重插补认为待插补的值是随机的实践上通常是估计出待插补的值再加上不同的噪声形成多组可选插补值根据某种选择依据选取最合适的插补值。 压缩感知和矩阵补全 压缩感知通过利用信号本身所具有的稀疏性从部分观测样本中回复原信号。压缩感知分为感知测量和重构恢复两个阶段。 感知测量此阶段对原始信号进行处理以获得稀疏样本表示。常用的手段是傅里叶变换、小波变换、字典学习、稀疏编码等 重构恢复此阶段基于稀疏性从少量观测中恢复原信号。这是压缩感知的核心 矩阵补全可以查看知乎上的问题–矩阵补全matrix completion的经典算法有哪些目前比较流行的算法是什么 手动补全 除了手动补全方法其他插值补全方法只是将未知值补以我们的主观估计值不一定完全符合客观事实。在许多情况下根据对所在领域的理解手动对缺失值进行插补的效果会更好。但这种方法需要对问题领域有很高的认识和理解要求比较高如果缺失数据较多会比较费时费力。 最近邻补全 寻找与该样本最接近的样本使用其该属性数值来补全。 3.1.2 图片数据扩充 对于图片数据最常遇到的问题就是训练数据不足的问题。 一个模型所能获取的信息一般来源于两个方面一个是训练数据包含的信息另一个就是模型的形成过程中包括构造、学习、推理等人们提供的先验信息。 而如果训练数据不足那么模型可以获取的信息就比较少需要提供更多的先验信息保证模型的效果。先验信息一般作用来两个方面一是模型如采用特定的内在结构比如深度学习的不同网络结构、条件假设或添加其他约束条件深度学习中体现在损失函数加入不同正则项第二就是数据即根据先验知识来调整、变换或者拓展训练数据让其展现出更多的、更有用的信息。 对于图像数据如果训练数据不足导致的后果就是模型过拟合问题即模型在训练样本上的效果不错但在测试集上的泛化效果很糟糕。过拟合的解决方法可以分为两类 基于模型的方法主要是采用降低过拟合风险的措施如简化模型从卷积神经网络变成逻辑回归算法、添加约束项以缩小假设空间如 L1、L2等正则化方法、集成学习、Dropout方法深度学习常用方法等基于数据的方法主要就是数据扩充(Data Augmentation)即根据一些先验知识在保持特点信息的前提下对原始数据进行适当变换以达到扩充数据集的效果。具体做法有多种在保持图像类别不变的前提下可以对每张图片做如下变换处理。 一定程度内的随机旋转、平移、缩放、裁剪、填充、左右翻转等这些变换对应着同一个目标在不同角度的观察结果对图像中的元素添加噪声扰动如椒盐噪声、高斯白噪声等颜色变换。比如在图像的 RGB 颜色空间进行主成分分析得到 3 个主成分的特征向量p1,p2,p3以及对应的特征值λ1,λ2,λ3然后在每个像素的 RGB 值上添加增量[p1,p2,p3]*[a1λ1,a2λ2,a3λ3]其中a1,a2,a3都是均值为 0 方差较小的高斯分布随机数改变图像的亮度、清晰度、对比度、锐度等。 上述数据扩充方法是在图像空间进行变换的也可以选择先对图像进行特征提取然后在图像的特征空间进行变换利用一些通用的数据扩充或者上采样方法例如 SMOTE(Synthetic Minority Over-sampling Technique)。 此外最近几年一直比较热门的 GAN生成对抗网络它的其中一个应用就是生成图片数据也可以应用于数据扩充。 最后还有一种方法可以不需要扩充数据利用迁移学习的做法也是如今非常常用的一个方法微调Finetuning即借用在大数据集如 ImageNet上预训练好的模型然后在自己的小数据集上进行微调这是一种简单的迁移学习同时也可以快速训练一个效果不错的针对目标类别的新模型。 小结 数据特征缺失和图片数据的不足都是机器学习任务中非常常见的问题因此需要好好掌握如何处理缺失值以及扩充图片数据的方法。 参考 《百面机器学习》第一章 特征工程机器学习之特征工程[数据预处理方法总结]Python数据分析三——数据预处理Python数据分析二——数据探索【Python数据分析基础】: 异常值检测和处理 欢迎关注我的微信公众号–机器学习与计算机视觉或者扫描下方的二维码大家一起交流学习和进步 往期精彩推荐 学习笔记 机器学习入门系列1–机器学习概览[GAN学习系列] 初识GAN[GAN学习系列2] GAN的起源[GAN学习系列3]采用深度学习和 TensorFlow 实现图片修复(上 数学学习笔记 程序员的数学笔记1–进制转换程序员的数学笔记2–余数程序员的数学笔记3–迭代法 Github项目 资源教程推荐 [Github 项目推荐] 一个更好阅读和查找论文的网站[资源分享] TensorFlow 官方中文版教程来了必读的AI和深度学习博客[教程]一份简单易懂的 TensorFlow 教程[资源]推荐一些Python书籍和教程入门和进阶的都有
http://wiki.neutronadmin.com/news/401406/

相关文章:

  • 什么是企业云网站建设下载微信公众号平台官网
  • 东莞seo网站管理优惠券网站开发
  • js获取网站域名seo网站推广首页排名
  • 模板网站劣势西安网站建设seo优化
  • 个人网站有哪些网站wordpress 关键词插件
  • 安宁网站建设网站开发实习内容
  • 外国语学院英文网站建设php wordpress 备份数据库
  • 中山网站建设是什么中国招投标网站官网
  • 网站源码怎么上传西地那非片怎么服用最佳
  • 网站建设 模板24小时最新军事新闻
  • 对于政务网站建设的建议友情链接查询
  • 网站推广优势类似pc蛋蛋的网站建设
  • 网站建设跟推广评价指标有什么关系好的wordpress企业模板
  • HTML电影订票网站开发百度seo关键词优化方案
  • 建设简单网站的图纸建立链接
  • 网站设计宽度尺寸安监局网站建设方案
  • 如何安装网站模版廊坊专业网站制作服务
  • 网站信息批量查询工具公众号做电影网站
  • 机械产品做哪个网站炫酷html5网站模板
  • 大鹏新区网站建设梁山专业网站建设
  • 凡科建站可以做几个网站吉林省头条新闻
  • 网站建设风格wordpress做导航插件
  • 建筑工程东莞网站建设网站建设公司包括哪些内容
  • 环保产品企业网站建设河北建设集团有限公司网站
  • 申请建设网站的请示传统媒体网站建设
  • 网站建设专业性东莞哪里有网站建设厂家
  • 北京网站备案查询友情链接交换网址大全
  • 做网站销售好累怎样做网站二级页面
  • 中航建设集团有限公司网站百度网页版网址
  • 做网站公司圣辉友联网站建设开发的目的