当前位置: 首页 > news >正文

天津做网站seo的海南网页设计

天津做网站seo的,海南网页设计,海淀做网站的公司,郑州企业网站推广深度学习自然语言处理 原创作者#xff1a;yy 很多年前#xff0c;你一定在互联网上看过这张图#xff0c;展示了人脑能够阅读和理解打乱顺序的单词和句子#xff01;而最近东京大学的研究发现#xff0c;大语言模型#xff08;LLMs#xff09; 尤其是 GPT-4#xff0c… 深度学习自然语言处理 原创作者yy 很多年前你一定在互联网上看过这张图展示了人脑能够阅读和理解打乱顺序的单词和句子而最近东京大学的研究发现大语言模型LLMs 尤其是 GPT-4也可以读懂打乱顺序的单词甚至是在人脑都难以分辨的情况下 接下来就让我们来具体介绍一下这个违反直觉的发现吧 论文Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text 地址https://arxiv.org/pdf/2311.18805.pdf 代码https://github.com/ccqq77/unnatural-error-correction. 前言 “Typoglycemia” 这个词曾在互联网上风靡一时它是由“打字错误Typo”和“低血糖Hypoglycemia” 这两个单词拼凑而成。通俗地讲”Typoglycemia“ 指一个有趣的现象只要每个单词的首尾字母正确即使中间的字母顺序是完全打乱的也不影响人类的正常阅读与理解。 而这篇研究发现大多数强大的 LLMs 都具备类似于 “typoglycemia” 的超能力。更令人惊讶的是作者发现即使每个单词中的所有字母都是乱序 仍有且并仅有 GPT-4 能近乎完美地从乱序中恢复原始句子将编辑距离减少 95%尽管乱码文本对输入 tokenization 造成了严重破坏但 LLMs 仍能表现出如此强大的恢复能力 任务设计 为了评估 LLMs 处理乱序文本的能力作者提出了 Scrambled Bench 包含两个任务如图所示。 1. 乱序句子恢复ScrRec 提供包含乱序词的句子要求LLMs恢复出原始句子。这项任务可以直接评估 LLMs 识别和重建句子中乱序词的能力。 2. 乱序问题解答ScrQA 如果模型在 ScrRec 任务中表现不佳可能有两个原因 (1) 模型难以遵循指令 (2) 模型无法恢复句子。 为了区分这两种情况作者设计了 ScrQA 任务来评估模型在乱序语境下完成标准任务即 QA 的能力。具体而言作者将包含了回答问题所需基本信息的文本打乱并根据模型表现的差异对其进行评估。 数据集构建 RealtimeQA2022年 RealtimeQA 是一个动态的问题解答数据集每周都会公布有关近期新闻的问题。为了缓解数据污染作者从 RealtimeQA 中收集最近的数据2023/03/17-2023/08/04并对证据句进行加扰处理以构建 ScrRec 和 ScrQA 任务的样本。 DREAM2019年 DREAM 是一个基于对话的多选阅读理解数据集。作者对每个问题的对话部分进行了加扰处理。 AQuARAT2017年 AQuA-RAT 是一个数学单词问题数据集需要多步推理才能解决。作者采用了 few-shot Chain of ThoughtCoT并对主问题和示例问题都加入扰动。 对于每个数据集作者使用不同的扰动类型和比例生成扰动文本。 1. 随机扰动RS 对于每个句子随机选择一定比例20%、50%、100%的单词并随机扰乱每个选定单词中的所有字母阿拉伯数字保持不变。 2. 保留第一个字母KF 保持每个单词的第一个字母不变并随机扰乱其他位置的字母。 3. 保留首尾字母KFL 保持每个单词的第一个和最后一个字母不变并随机扰乱其他位置的字母。 评价指标 Recovery Rate (RR) 对于 ScrRec 任务原始句子与恢复句子之间的平均编辑距离ED是一种自然的性能度量指标。 此外作者还定义了 Recovery RateRR来衡量 ED 在恢复的句子中所占的比例从而可以更简明地比较不同设置下模型的性能 Relative Performance Gain (RPG) 对于 ScrQA 而言accuracy 是衡量性能的一个自然指标。但是由于不同模型在处理原始问题时的能力存在差异很难比较不同模型的性能。 因此作者引入了 Relative Performance GainRPG将评估重点放在与原始文本相比模型理解扰动文本的能力上 实验设置 作者评估了最强大的闭源 LLM包括 text-davinci-003、GPT-3.5-turbo 和 GPT-4以及 Falcon 系列、Llama-2 系列、MPT 系列、UL2 系列、T5 系列等开源模型。对于各数据集和任务采取了以下设置 RealtimeQA ScrReczero-shot few-shotScrQAzero-shotDREAM ScrQA zero-shotAQuA ScrQA few-shot COT 结果分析 由于篇幅等原因仅展示性能最好的五种 LLM即 GPT4、GPT-3.5-turbo、text-davinci-003、Falcon-180b 和 Llama-2-70b的结果。 结果 1扰动类型 实验结果表明在 KFL 设置下各模型之间的性能差距不大。然而除 GPT-4 外随着扰动类型难度的增加KFL ➡ KF ➡ RS模型性能明显下降。相比之下GPT-4 的性能始终保持在较高水平而与扰动类型无关。在 ScrRec 任务上GPT-4 的 RR 在所有设置下都保持在 95% 以上。在 ScrQA 任务上GPT-4 的表现一直优于其他模型即使扰动的难度增加也能保持较高的准确率。 结果 2扰动比例 随着扰动比例的增加text-davinci-003、Falcon-180b 和 Llama-2-70b 的 RR 会降低。GPT-3.5-turbo 和 GPT-4 的 RR 变化不大。GPT-4 的表现远远优于其他模型大多数设置下的 RR 都高于 95%20% 扰动率除外。 所有模型的 RPG 都随着扰动比例的增加而下降。但 GPT-4 即使在 100%加扰证据的情况下仍能保持 87.8% 的原有性能。随着扰动比例的增加不同模型之间的性能差距也越来越大。 结果 3其他数据集 在加扰的 DREAM 数据集上除了评估整体性能作者还评估了不同类别问题的性能。结果显示GPT-4 与其他模型间的差异比在 RealtimeQA 上更加突出这可能由于 DREAM 需要对较长文本进行深层次理解。与其他类别相比模型在算术问题上的表现往往更容易受到乱序文本的影响即使是 GPT-4 也是如此。 下表展示了在加扰的 AQuA-RAT 数据集上进行 4-shot CoT 设置的实验结果。结果表明加扰示例的影响相对较小。但当主问题的加扰率达到 100%时GPT-3.5-turbo 和 text-davinci-003 的性能明显下降而 GPT-4 基本保持了最初的性能。 结论 本研究提出了 Scrambled Bench 来衡量 LLMs 处理乱序文本的能力包括两个任务乱序句子恢复 ScrRec 和乱序问题解答 ScrQA并基于 RealtimeQA、DREAM 和 AQuA-RAT 构建了乱序数据集。尽管乱序文本显著改变了 tokenization大多数强大的 LLMs 仍能在不同程度上处理乱序文本不过它们在面对极端乱序的文本时会显得力不从心。在这两项任务中GPT-4 都表现出了良好的性能显著优于其他模型。 未来的改进空间也很大。首先对于 LLMs还有多种方法可以破坏单词的 tokenization如插入字母、替换字母等。其次ScrRec 和 ScrQA 这两项任务适用于多种数据集且易于扩展分析。最后由于无法直接访问闭源模型作者没有总结出 LLMs 能够处理这些任务的具体原因。特别地GPT-4 可以近乎完美地完成任务其背后的原因值得深究 备注昵称-学校/公司-方向/会议(eg.ACL)进入技术/投稿群 idDLNLPer记得备注呦
http://wiki.neutronadmin.com/news/416534/

相关文章:

  • ktv在那些网站做宣传效果好网页设计 做网站的代码
  • 网站建设与管理案例教程期末考试中国房地产未来走势
  • 网站备案主体注销百度贴吧论坛
  • 哪个网站做自考题目免费宁夏百度推广代理商
  • 无锡做公司网站免注册个人网站制作
  • 网站开发图形化软件建筑公司名字起名大全2020最新
  • 汉堡只做网站wdcp 网站建设
  • 安阳网络科技有限公司网站关键词优化快速排名
  • 呼和浩特哪里做网站上海企业网站模板
  • 如何做一份企业网站规划设计师应该关注的网站
  • 哪些网站可以做商家网页界面设计体会
  • 网络平台建站流程湖南网站开发企业
  • 湘潭市网站建设wordpress自动标签
  • 大连网站建设ewaylife设计网站首页多少钱
  • 网站建设的整体流程有哪些?国家企业信息管理系统
  • 简单的网站建设公司中石化第四建设有限公司网站
  • 网站程序制作软件asp.net做登录注册网站
  • 外贸网站推广计划书韩国服务器
  • 营销型企业、公司网站案例p2p网上贷款网站建设方案
  • 汉中网站开发wordpress插件写在模板里
  • 微博网站建设三明做网站的公司
  • 软件开发包含网站开发吗常熟市沿江经济开发区人才网
  • 网站上做旅游卖家要学什么google推广公司
  • 合肥建网站公司做商城网站需要备案什么域名
  • 中土集团北方建设有限公司网站网站如何做等保备案
  • 范县网站建设价格建设培训考试服务网站
  • 网站设计文稿广州建筑信息平台
  • ps做网站需注意漯河网站建设费用
  • 做钓鱼网站教程学院网站建设 好处
  • 微信小程序制作免费轻站平台平面设计与网页设计培训