当前位置: 首页 > news >正文

wordpress更改主站点8x8x8x新的网址入口

wordpress更改主站点,8x8x8x新的网址入口,南昌地宝网出租房信息,今天最新军事新闻简介 如果您还没有听过#xff0c;请告诉您一个事实#xff0c;作为一名数据科学家#xff0c;您应该始终站在一个角落跟你说#xff1a;“你的结果与你的数据一样好。” 尝试通过提高模型能力来弥补糟糕的数据是许多人会犯的错误。这相当于你因为原来的汽车使用了劣质汽…简介 如果您还没有听过请告诉您一个事实作为一名数据科学家您应该始终站在一个角落跟你说“你的结果与你的数据一样好。” 尝试通过提高模型能力来弥补糟糕的数据是许多人会犯的错误。这相当于你因为原来的汽车使用了劣质汽油导致汽车表现不佳而更换了一辆超级跑车。这种情况下应该做的是提炼汽油而不是升级的车。在这篇文章中。我将向您解释如何通过提高数据集质量的方法来轻松获取更好的结果。 注意我将以图像分类的任务为例但这些技巧可以应用于各种数据集。 问题1数据量不够。 如果你的数据集过小你的模型将没有足够多的样本概括找到其中的特征在此基础上拟合的数据会导致虽然训练结果没太出错但是测试错误会很高。 解决方案1收集更多数据。 您可以尝试找到更多的相同源做为您的原始数据集或者从另一个相似度很高的源再或者如果你绝对要来概括。 注意事项这通常不是一件容易的事需要投入时间和金钱。此外你可能想要做一个分析以确定你需要有多少额外的数据。将结果与不同的数据集大小进行比较并尝试进行推断。 在这种情况下似乎我们需要500k样本才能达到目标 误差。这意味着我们现在收集的数据量是目前的50倍。处理数据的其他方面或  模型可能更有效。 解决方案2通过创建具有轻微变化的同一图像的多个副本来增强数据。 这种技术可以创造奇迹并以极低的成本生成大量额外的图像。您可以尝试裁剪旋转平移或缩放图像。您可以添加 噪点模糊改变颜色或阻挡部分噪音。在所有情况下您需要确保数据仍然代表同一个类。 所有这些图像仍然代表“猫”类别 这可能非常强大因为堆叠这些效果会为您的数据集提供指数级的样本。请注意这通常不如收集更多 原始 数据。 组合数据增强技术。班级仍然是“猫”应该被认可。 注意事项所有增强技术可能无法用于您的问题。例如如果要归类柠檬和酸橙不与色相玩因为这将是有意义颜色是对分类重要。 这种类型的数据增加将使模型更难找到区别特征。 问题2低质量的分类 这很简单但如果可能的话花些时间浏览一下您的数据集并验证每个样本的标签。这可能需要一段时间但在数据集中使用反例会对 学习过程产生不利影响。 此外为您的类选择正确的粒度级别。根据问题您可能需要更多或更少的类。例如您可以使用全局分类器对小猫的图像进行分类以确定它是动物然后通过动物分类器运行它以确定它是小猫。一个巨大的模型可以做到这两点但它会更难。 具有专门分类器的两阶段预测。 问题3低质量的数据 如引言中所述低质量数据只会导致低质量的结果。 数据集中的数据集中的样本可能与您要使用的数据集相差太远。这些可能会更混乱的模式不是很有帮助。 解决方案删除最糟糕的图像。 这是一个漫长的过程但会改善您的结果。 当然这三个图像代表猫但模型可能无法使用它。 另一个常见问题是当您的数据集由与真实世界应用程序不 匹配的数据组成时。例如如果图像来自完全不同的来源。 解决方案考虑技术的长期应用以及将用于获取生产数据的方法。 如果可能尝试使用相同的工具查找/构建数据集。 使用不代表您的真实世界应用程序的数据通常是一个坏主意。您的模型可能会提取在现实世界中无法使用的功能。 问题4不平衡的分类 如果数每类样本的不是大致的相同的所有类模型可能有利于统治阶级的倾向因为它会导致一个较低的 错误。我们说该模型存在偏差因为类分布是偏态的。这是一个严重的问题也是您需要查看精度召回或混淆矩阵的原因。 解决方案1收集代表性不足的分类的更多样本。 然而这在时间和金钱上通常 是昂贵的或者根本不可行。 解决方案2对数据进行过度/不足的采样。 这意味着您从过度表示的类中删除一些样本或从代表不足的类中复制样本。比重复更好使用数据增加如前所述。 补充猫类图片减少青柠的图片可以让数据集不同的分类更平衡 问题5数据不平衡 如果您的数据没有特定 格式或者值不在特定 范围内则您的模型可能无法处理它。你将有形象有更好的结果横宽比和像素值。 解决方案1裁剪或拉伸数据使其具有与其他样本相同的方面或格式。 两种可能性来改善格两种可能性来改善格式错误的图像式错误的图像。 解决方案2规范化数据使每个样本的数据都在相同的值范围内。 将值范围标准化为在整个数据集中保持一致。 问题6没有验证集和测试集 清理扩充和正确标记数据集后需要将其拆分。许多人通过以下方式将其拆分80用于训练20用于测试这 使您可以轻松发现过度装配。但是如果您在同一测试集上尝试多个模型则会发生其他情况。通过选择具有最佳测试精度的模型您实际上过度拟合了测试集。发生这种情况是因为您手动选择的模型不是其内在模型 值但其性能上的特定数据集。 解决方案将数据集拆分为三个训练集、验证集、测试集。 该屏蔽你的测试被设置过度拟合由模型的选择。选择过程变为 在训练集上训练你的模型。在验证集上测试它们以确保没有过拟合。选择最有希望的模型。在测试集上测试它这将为您提供模型的真实准确性。 注意一旦您选择了生产模型请不要忘记在整个 数据集上进行训练数据越多越好 结论 我希望到现在你确信在考虑你的模型之前你必须注意你的数据集。您现在知道处理数据的最大错误如何避免陷阱以及如何构建杀手数据集的提示和技巧如有疑问请记住“获胜者是不是一个最好的模式这是一个最好的数据。”。 原文Stop Feeding Garbage To Your Model! — The 6 biggest mistakes with datasets and how to avoid them.
http://wiki.neutronadmin.com/news/116465/

相关文章:

  • 个人网站备案做商城做的好看的国内网站欣赏
  • 怎么去营销自己的产品惠州市seo广告优化营销工具
  • 做表格的网站做网站违法吗
  • 柳州门户网站建设公司排名google移动服务应用优化
  • 网站设计制做报价自建app免费制作平台
  • 怎么做公众号网站吗微商建立网站
  • 网站配图尺寸wordpress自适应空白主题
  • 大庆免费网站建设动态图片在线制作
  • 建设企业网站的好处wordpress汉化版
  • 网站建站的流程wordpress 分享到微信
  • 网站开发加22760047安徽伟诚建设工程有限公司网站
  • 怎么制作网站app国外建站公司
  • 汕头市网站建设注册公司代理费用标准
  • 石家庄新钥匙做网站怎样建网站卖东西
  • 攀枝花网站建设微官网下载
  • c++软件开发需要学什么上海网站排名优化
  • 给网站做推广华为手机价格大全
  • 青岛制作公司网站wordpress 菜单 宽度
  • 网站怎么挂服务器建设旅游服务类网站的可行性报告
  • 建设银行集团网站网站建设速成
  • 咸宁市网站建设wordpress 最新教程视频
  • 手机可以设计网站吗唐山模板建站系统
  • 物流加盟信息网站深圳宝安网站建设500元起价
  • 宁波有做网站的地方吗牛客网官网
  • 瑞安网站制作食品推广方式有哪些
  • 网站备案 更名网站建设销售销售流程
  • 网站开发环境配置难百度首页关键词推广
  • 万网的网站建设好吗免费建手机个人网站
  • 海宏集团网站建设方案手机移动端网站案例
  • 导购网站怎么做的河南省建设局网站首页