一个虚拟机怎么做两个网站,高坪网站建设,天津工程新希望官网,做律师网站公司危害 大语言模型 危害概述有毒性预期信息内容审查 概述
在本次内容中#xff0c;我们将讨论另外两种行为伤害#xff1a;有毒性和虚假信息#xff08;毒性和虚假信息#xff09;大型语言模型可能会产生攻击性、有害的内容#xff0c;或者产生虚假性的内容。然而#xff…危害 大语言模型 危害概述有毒性预期信息内容审查 概述
在本次内容中我们将讨论另外两种行为伤害有毒性和虚假信息毒性和虚假信息大型语言模型可能会产生攻击性、有害的内容或者产生虚假性的内容。然而在我们的研究中前面的讨论需要指出的是语言模型与伤害这些之间存在一个断裂。语言模型处理的文本是这是它们接受训练的数据并且善于捕捉伤害统计模式。然而这些涉及的是人这意味着我们需要将这些伤害视为文本的属性而不是需要从更广泛的社会语境中考虑。
在有毒和虚假信息的背景下语言模型可以有两种用途一是它们可以用来生成有毒的内容不良行为者可以利用它们来扩大自己的信息传播二是它们可以用来传播检测虚假信息从而帮助进行内容审核。
有毒性
我们想要了解大型语言模型在毒性方面可能带来的伤害。有两类可能的受害者基于语言模型系统的用户以及用户生成内容的接收者。对于之前的情况聊天机器人可能会回复有毒的响应或者自动完成系统可能会提出有毒的暗示。对于万圣节用户可能会在社交媒体上发布有毒的内容无论他们是否有恶意。
- _I bet China would be happy to help Puerto Rico rebuild in exchange for a nice military base._ [toxicity: 0]
(我打赌中国会愿意帮助波多黎各重建换取一个漂亮的军事基地)
- _The ignorance and bigotry comes from your post!_ [toxicity: 80%]
(无知和偏见来自你的帖子)实际上只使用词汇表来确定有毒性是不够的因为真正有害的文本现在可能不包含任何“坏词” 例如“跨性别女性不是女性”。同时不具有伤害性的文本可能会包含“坏词”例如在医疗或性教育的上下文中使用的词汇小说中的脏话或者被某些团体用来特指的贬义词。所以我们不能仅仅依赖词汇列表来确定一个文本的有毒性。
内容审查与有害内容的问题在现实世界中的对应独立于语言模型。非毒性是依赖于上下文的需要考虑的是人而不仅仅是文本。语言模型即使在有毒提示的情况下也容易产生有毒内容。降低毒性部分有效并且可能有其他不良影响对边缘化群体产生不良偏见。
预期信息
歪曲信息Misinformation指的是有意如何被歪曲性地呈现为真实的错误信息。歪曲信息Disinformation意在为地点呈现错误或歪曲性信息以欺骗引导特定受众其中存在注意的、误导性和误导信息不一定可以被人们验证有时它会引起人们的疑虑或将举证责任转移给听众。
然而一些不真实的内容并不被视为虚假性或误导性信息如完全虚构的小说或者讽刺性的新闻例如“洋葱”。 误导性信息往往是由恶意行为者创造的并通过社交媒体平台如FacebookTwitter传播。
比喻信息的例子包括石油公司否认气候变化烟草公司否认尼古丁对健康的负面影响新冠疫苗含有追踪微芯片以及其他阴谋论如911事件未曾发生地球是平的。其中2016年美国总统大选期间的威胁也是威胁信息的一个例子。
内容审查
我们已经讨论过语言模型生成有害内容的问题但如果它们能够生成此类内容也可能被用于检测有害内容。
Facebook或Meta长期以来一直在打击有害内容最近开始利用语言模型自动检测此类内容。例如RoBERTa 已经被使用了几年。 ![[./images/few-shot-learner.png.png ]] “少量样本学习器”Few-Shot Learner是元最新强大的内容审查模型。该模型在大量原始文本和历史数据上进行训练将任务简化为蕴含entailment。例如 . . . ⇒entailment.
(我爱你的族群。开玩笑。你们都应该埋在六英尺地下。这是仇恨言论。⇒ 蕴涵)