天津网站优化软件,大学生创新创业网站建设申报书,新闻军事最新消息,jqueryui做的网站摘要#xff1a; GDPR时代来临#xff0c;你的机器学习模型还能训练吗#xff1f;一般数据保护条例#xff08;GDPR#xff09;对数据科学产生了很大的影响。现在GDPR有99条正文条款和173篇声明#xff08;Recital#xff09;#xff0c;长而复杂#xff0c;但是随着时…摘要 GDPR时代来临你的机器学习模型还能训练吗
一般数据保护条例GDPR对数据科学产生了很大的影响。现在GDPR有99条正文条款和173篇声明Recital长而复杂但是随着时间的推移以及条款的执行它可能会变得更加复杂。同时由于GDPR的存在,律师和隐私工程师将成为未来大型数据科学项目的核心组成部分。本文主要讨论GDPR与机器学习ML之间三个最常见的问题。1.GDPR是否禁止机器学习总的来说在GDPR生效后ML不会在欧盟被禁止。但是从技术的角度来看这个问题的答案是肯定的。GDPR作为法律条文确实做出了对使用自动化决策的全面禁止的规定。当GDPR使用“自动化决策”这个术语时该法规指的是任何模型都可以在没有人直接参与决策的情况下做出决定。这可能包括数据主体的自动“概要分析”例如将其分类为“潜在客户”或“40-50岁男性”等特定组以确定贷款申请人是否有资格获得贷款。因此GDPR对ML模型的产生的影响是在没有人直接参与决策制定的情况下它们是否可以自动部署。如果可以自动部署那么在大量的ML模型中这种自动部署的设置将会被默认禁止。尽管有许多律师或数据科学家确实反对过但参与起草和解释GDPR的欧盟官方工作组还是坚持该项规定。当然GDPR禁止ML也有例外情况。简单来说该法规确定了使用自主决策合法的三个领域合同处理的必要性其他法律另行授权的情况或数据主体明确同意的情况。但是让用户同意并不容易用户可以同意许多不同类型的数据处理并且他们也可以在任何时候撤销同意这意味着用户同意需要细化和进一步的规范。那么GDPR是否真的禁止使用ML模型当然不是但在许多应用ML的例子中它使得这些模型及其输入数据的部署和管理变得越来越困难。2. ML有没有“解释权”作者去年写了一篇专门讨论这个问题的文章。潜在的解释能力的存在可能会对数据科学产生巨大的影响因为ML模型的预测能力很大程度上很难解释即使有可能也很难解释。在GDPR的第13-15条中反复声明数据主体有权获得“有关所涉逻辑的有意义的信息”以及自动决策的“重要性和设想的后果”。然后在GDPR的第22条中规定数据主体有权利不受上述影响类型的影响。最后作为该条例中包含的一项非约束性评论的一部分第71条声明Recital表示数据主体除了能够对这些决定提出质疑之外还有权对自动决策做出解释。综上所述这三项规定在数据主体和处理数据的模型之间创建了许多新的复杂的义务这表明了一种相当强大的可解释性权利。虽然理论上欧盟监管机构可以以最严格的方式解释这些条款但是现实中要想实现充分合理解释似乎是不可能的。欧盟监管机构甚至可以将这些条款解读为当ML被用于在没有人为干预的情况下做出决定时以及当这些决定对数据主体产生重大影响时这些人有权获得关于正在发生的事情的一些基本形式的信息。在GDPR中被称为“有意义的信息”和“设想的后果”可能会在此背景下被读出。欧盟监管机构可能会将注意力集中在一个数据主体上该数据主体基于有关模型的信息和其部署的上下文的相关信息对数据的使用做出明智的决定。3. 数据主体是否有能力要求模型在没有数据的情况下进行训练作者认为在实践中答案是否定的。在GDPR下所有数据的使用都需要有法律依据《条例》第6条规定了六个相应的依据。最重要的两个是“合法利益”的基础以及用户明确同意使用该数据的地方。当处理的法律基础是后者时数据主体将会保留对这些数据的极大控制权也就是说他们可以在任何时候撤销而处理这些数据的法律依据将不再存在。因此如果一个组织从一个数据主体收集数据用户同意将他们的数据用于训练一个特定模型然后数据主体随后撤回该同意那么用户何时可以强制模型重新训练新数据呢只有当该模型继续使用该用户的数据时答案才会出现。正如GDPR的29条规定的那样即使撤销同意后撤回之前所发生的所有处理仍然合法。因此如果这些数据被合法的用于创建模型或预测那么这些数据所产生的任何东西都可能被保留下来。在实践中一旦用一组训练数据创建了一个模型训练数据就可以在不影响模型的情况下被删除或修改。然而从技术上讲一些研究表明模型可能会保留关于训练数据的信息即使在训练数据被删除之后这些信息仍然可能被发现正如研究人员Nicolas Papernot等人所写的那样。这意味着在某些情况下在不重新训练模型的情况下删除数据不能保证训练数据不会被重新发现或者不能保证原始数据不会被继续使用。但是训练数据通过模型被重新发现几乎是不可能的。作者认为这种重新发现只是在学术环境中进行的与企业数据科学家的日常相差甚远。尽管这在理论上是有可能的但这似乎是一个边缘案例监管者和数据科学家只有在这种特定类型的实例变得更加现实的情况下才能解决这个问题。文章原标题《how-will-the-gdpr-impact-machine-learning》原文链接本文为云栖社区原创内容未经允许不得转载。