当前位置: 首页 > news >正文

中小学生教育网站建设方案wordpress DUX商店模式

中小学生教育网站建设方案,wordpress DUX商店模式,芜湖市民心声,百度招聘论文地址#xff1a;[2102.08369] CTAB-GAN: Effective Table Data Synthesizing (arxiv.org) 介绍 虽然数据共享对于知识发展至关重要#xff0c;但遗憾的是#xff0c;隐私问题和严格的监管#xff08;例如欧洲通用数据保护条例 GDPR#xff09;限制了其充分发挥作用。…论文地址[2102.08369] CTAB-GAN: Effective Table Data Synthesizing (arxiv.org) 介绍 虽然数据共享对于知识发展至关重要但遗憾的是隐私问题和严格的监管例如欧洲通用数据保护条例 GDPR限制了其充分发挥作用。合成表格数据作为一种替代方案出现可在满足监管和隐私约束的同时实现数据共享。最先进的表格数据合成器从生成对抗网络 (GAN) 中汲取方法论并处理行业中的两种主要数据类型即连续数据类型和分类数据类型。在本文中我们阐明了 CTAB-GAN这是一种新颖的条件表 GAN 架构可以有效地对各种数据类型进行建模包括连续变量和分类变量的混合。此外该模型还解决了实际表格数据集中的数据不平衡和长尾问题即某些变量在大值之间具有显着的频率差异。这是通过利用条件 GAN 的信息损失和分类损失实现的。此外该模型具有新颖的条件向量可有效地对混合数据类型和数据变量的偏态分布进行编码。CTAB-GAN 在数据相似性和分析效用方面用当前的技术水平进行了评估。五个数据集的结果表明CTAB-GAN 的合成数据与所有三类变量的真实数据非常相似并导致五种机器学习算法的准确率更高高达 17%. 论文动机 工业数据集在银行、保险公司和医疗保健等利益相关者中提出了多重挑战。首先这些数据集被组织成表格并填充有连续变量和分类变量或两者的混合例如贷款持有人的抵押贷款价值。该值可以是 0无抵押或某个连续的正数。在这里我们将这种类型的变量称为混合变量。其次连续数据变量通常具有广泛的值并且可以表现出重长尾分布例如信用卡交易金额的统计。大多数交易应该在 0 到 500 美元之间即每天购买食物和衣服但肯定存在高交易额的例外。第三连续数据变量也可能包含具有多种偏斜频率模式的分布。在下面的图 2 中我们展示了这些问题在利用当前最先进的技术时如何表现出来。 使用现有的基于 GAN 的表生成器对工业数据集建模的挑战(a) 混合类型(b) 长尾分布以及偏斜数据 因此总而言之应对以下挑战构成了研究的主要动机 表格数据包含由连续和离散分量组成的混合变量。类似地嵌入在连续变量中的缺失值也可以被视为混合变量的一个分类组件。连续变量表现出严重的长尾分布难以真实地建模和重现。连续变量包含多种模式的偏斜频率这进一步加剧了建模。 贡献 我们设计了一种新的条件表格数据合成器 CTAB-GAN它解决了现有技术的局限性i编码连续和分类变量的混合数据类型ii长尾连续变量的有效建模(iii) 增加了对不平衡分类变量和偏斜连续变量的稳健性。此外CTAB-GAN 的两个关键特征是在条件 GAN 中引入分类损失以及对条件向量的新颖编码该编码有效地编码混合变量并有 助于处理连续变量的高度偏态分布。 因此主要贡献可以总结如下 新颖的条件对抗网络它引入了一个分类器提供额外的监督以提高其在 ML 应用程序中的效用。通过新颖的数据编码和条件向量对连续、分类和混合变量进行有效建模。轻量级数据预处理使用简单的对数变换减轻连续变量长尾分布的影响。为相关利益相关者提供有效的数据合成器。 结果 使用 CTAB-GAN 对工业数据集建模的结果(a) 混合类型(b) 长尾分布以及偏斜数据 现在让我们根据第2节前面介绍的三个动机案例来回顾CTAB-GAN的表现。 混合变量——上面显示的图 3.(a) 比较了贷款数据集中变量“抵押”的真实数据和 CTAB-GAN 生成的数据。CTAB-GAN 将此变量编码为混合类型。我们可以看到 CTAB-GAN 与现有的最先进技术不同生成了清晰的 0 值。 长尾连续变量 - 图 3.(b) 比较了 Credit 数据集中“Amount”变量的累积频率图。该变量是典型的长尾分布。可以看到 CTAB-GAN 完美地恢复了真实分布。由于对数转换数据预处理CTAB-GAN 比最先进的方法明显更好地学习这种结构。 倾斜的多模式连续变量 - 图 3.(c) 比较了来自 Adult 数据集的连续变量“Hours-per-week”的频率分布。除了 40 处的主峰外还有很多副峰这使得该色谱柱的合成极为困难。然而我们看到 CTAB-GAN 比现有方法更有能力恢复偏斜的多模态分布因为它是条件向量的新颖构造旨在使生成过程对此类分布更加鲁棒。 总结 受数据共享和履行政府法规的重要性的启发我们提出了 CTAB-GAN——一种基于条件 GAN 的表格数据生成器。CTAB-GAN 通过对混合变量进行建模而超越了先前最先进的方法并为不平衡的分类变量和具有复杂分布的连续变量提供了强大的生成能力。为此CTAB-GAN 的核心特征包括 (i) 将分类器引入条件 GAN(ii) 混合变量的有效数据编码以及 (iii) 条件向量的新构造。我们针对四个表格数据生成器在广泛的指标上详尽地评估了 CTAB-GAN即最终的 ML 实用程序、统计相似性和隐私保护。结果表明与现有的最先进技术相比CTAB-GAN 的合成数据具有高实用性、高相似性和合理的隐私保证。与所有最先进的算法相比复杂数据集的准确性提高了 17%。CTAB-GAN 的显着成果证明了其在广泛受益于数据共享的广泛应用中的潜力例如银行、保险、制造和电信。
http://wiki.neutronadmin.com/news/152970/

相关文章:

  • 建企业网站哪家好网站建设中心
  • 设计师接单网站营销策划的步骤
  • 在越南做网站都是什么人网站建设与管理的认识
  • 建网站简易软件百度收录好的免费网站
  • 北京微信网站设计报价介绍自己做的电影网站
  • 深圳网站设计公司哪个设计企业展厅的公司
  • 甘肃网站备案审核时间官网报名入口
  • 详细论述制作网站的步骤五莲县财源建设网站
  • 自己做网站怎么上传到网上中国新闻社是央企吗
  • 新网站建设风格wordpress 适合做什么网站
  • 博达站群网站建设教程wordpress作者增加分类插件
  • 网站策划工具wordpress怎样修改域名
  • 深圳外贸soho网站建设长沙有哪些大公司
  • 焦作建设银行门户网站企业网络推广哪家公司好
  • 兰州网站设计制作柳州网站建设公司
  • 可以免费制作网页的网站wordpress大量发文章
  • dw不用代码做网站网站的注册页面怎么做
  • 建设银行城东支行网站杭州本地网络推广公司
  • 我想做一个网站工程网站怎么做
  • 移动网站开发面试题珠海网站建设王道下拉惠
  • 淘宝上有做网站的吗网站建设忄金手指稳定
  • 已经有域名如何做网站级a做爰片免费视网站看看
  • 班级响应式网站html格式网站栏目划分怎么做
  • 电脑公司网站系统源码学生个人静态网页制作过程
  • 手机网站首页模板微网站排版
  • 国外网站怎么做引流宁波网站优化公司哪家好
  • 同企网站建设做网站怎么样做手机网站
  • 设计签名 免费 名字西安网站seo分析
  • 太平洋保险网站做文字的网站
  • 网站开发得花多少钱外贸营销公司