当前位置: 首页 > news >正文

找设计工作哪个网站好建设中学校园网站的目的

找设计工作哪个网站好,建设中学校园网站的目的,水滴查企业查询,苏州刚刚发生的大事来源#xff1a;智源社区 整理#xff1a;路啸秋审校#xff1a;夏梦舟、钟泽轩#xff08;陈丹琦团队#xff09;导读#xff1a;“Making large models smaller”这是很多语言模型研究人员的学术追求#xff0c;针对大模型昂贵的环境和训练成本#xff0c;陈丹琦在智… 来源智源社区 整理路啸秋审校夏梦舟、钟泽轩陈丹琦团队导读“Making large models smaller”这是很多语言模型研究人员的学术追求针对大模型昂贵的环境和训练成本陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势而后者可以在保证下游任务准确度的同时实现更快的处理速度具有更小的模型结构。陈丹琦 普林斯顿大学计算机科学系助理教授陈丹琦于2012年毕业于清华大学姚班2018年获得斯坦福大学计算机科学博士学位师从斯坦福大学语言学和计算机科学教授 Christopher Manning。背景介绍近年来自然语言处理领域正在迅速被大语言模型所主导。自从GPT 3问世以来语言模型的规模呈现指数级增长。大型科技公司不断发布越来越大的语言模型。近期Meta AI发布了OPT语言模型一个蕴含了1750亿参数的大型语言模型并向公众开放了源代码和模型参数。研究学者们之所以如此推崇大语言模型是因为它们出色的学习能力和性能表现但是人们对于大语言模型的黑盒性质仍了解甚少。向语言模型输入一个问题通过语言模型一步一步地推理能够解决非常复杂的推理问题比如推导出计算题的答案。但与此同时大型语言模型也存在着风险特别是它们的环境和经济成本例如GPT-3 等大规模语言模型的能源消耗和碳排放规模惊人。面对大语言模型训练成本昂贵、参数量庞大等问题陈丹团队希望通过学术研究缩减预训练模型的计算量并且让语言模型更有效率地适用于下层应用。为此重点介绍了团队的两个工作一个是一种语言模型的新型训练方法称之为TRIME另一个是一种适用于下游任务的有效模型剪枝方法称之为CofiPruning。团队工作介绍TRIME、CofiPruning论文地址https://arxiv.org/abs/2205.12674传统语言模型的训练流程如下给定一段文档将其输入到Transformer编码器中得到隐向量进而将这些隐向量输送到softmax层该层输出为由V个词嵌入向量组成的矩阵其中V代表词汇量的规模最后可以用这些输出向量对原先的文本进行预测并与给定文档的标准答案进行比较计算梯度实现梯度的反向传播。然而这样的训练范式会带来以下问题1庞大的Transformer编码器会带来高昂的训练代价2语言模型输入长度固定Transformer的计算量规模会随着序列长度的变化呈平方级增长因此Transformer很难处理长文本3如今的训练范式是将文本投影到一个固定长度的向量空间内来预测接下来的单词这种训练范式实际上是语言模型的一个瓶颈。为此陈丹琦团队提出了一种新的训练范式——TRIME主要利用批记忆进行训练并在此基础之上提出了三个共享相同训练目标函数的语言模型分别是TrimeLMTrimeLMlong以及TrimeLMext。TrimeLM可以看作是标准语言模型的一种替代方案TrimeLMlong 针对长范围文本设计类似于Transformer-XLTrimeLMext结合了一个大型的数据存储区类似于kNN-LM。在前文所述的训练范式下TRIME首先将输入文本定义为然后将输入传送到Transformer编码器中得到隐向量经过softmax层之后得到需要预测的下一个单词在整个训练范式中可训练的参数为和E。陈丹琦团队的工作受到了以下两个工作的启发12017年Grave等人提出的连续缓存Continuous cache算法。该算法在训练过程中训练一个普通的语言模型在推断过程中给定输入的文本首先列举给定文本先前出现的所有单词和其中所有等于下一个需要预测单词的标记位置然后利用隐变量之间的相似度和温度参数计算缓存分布。在测试阶段对语言模型分布和缓存分布进行线性插值可以得到更好的实验效果。22020年Khandelwal等人提出的k近邻语言模型kNN-LM该方法与连续缓存算法类似二者之间最大的不同在于kNN-LM为所有的训练样例构建了一个数据存储区在测试阶段将对数据存储区的数据进行k近邻搜索从而选择最佳的top-k数据。上述两个工作实际上只是在测试阶段采用了缓存分布和k近邻分布在训练过程中只是延续了传统的语言模型在推断阶段语言模型并没有优化缓存和数据存储区的结合。除此之外还有一些针对超长文本的语言模型工作值得关注例如在2019年提出的结合注意力循环Attention recurrence机制的Transformer-XL和在2020年提出的基于记忆压缩Memory compression的Compressive Transformers等。在之前介绍的几项工作基础之上陈丹琦团队构建了一个基于批记忆的语言模型训练方法主要思想是针对相同的训练批training batch构建一个工作记忆working memory。针对给定文本预测下一个单词的任务TRIME的思想与对比学习十分类似不仅仅考虑利用softmax词嵌入矩阵预测下一个单词出现概率的任务还新增了一个模块在这个模块中考虑所有出现在训练记忆training memory中且与给定文本需要预测的单词相同的所有其他文本。因此整个TRIME的训练目标函数包括两个部分1基于输出词嵌入矩阵的预测任务2在训练记忆training memory中共享同一个待预测单词文本的相似度其中需要衡量相似度的向量表示是在通过最终前馈层的输入采用缩放点积衡量向量相似度。算法希望最终训练的网络能够实现最终预测的单词尽可能准确同时同一训练批内共享同一个待预测单词的文本尽可能相似以使得正在训练过程中让所有的文本记忆表示通过反向传播实现端到端的神经网络学习。算法的实现思想在很大程度上受到2020年提出的稠密检索dense retrieval所启发稠密检索在训练阶段对齐询问和正相关文档并且利用同一批内的文档作为负样本在推断阶段从大型数据存储区中检索相关文档。TRIME的推理阶段几乎与训练过程相同唯一的区别在于可能会采用不同的测试记忆包括局部记忆Local memory长期记忆Long-term memory和外部记忆External memory。局部记忆指的是出现在当前片段中的所有单词并且已经被注意力机制向量化长期记忆指的是由于输入长度限制导致无法直接获取但与待处理文本来源于相同文档的文本表示外部记忆指的是存储所有训练样本或者额外语料库的大型数据存储区。为了能够尽可能减小训练和测试阶段的不一致性需要采取一定的数据处理策略来更好地构建训练记忆。局部记忆指的是在同一个数据片段中的先前标记tokens使用代价极其低廉。可以采用随机取样的批处理方式就能直接在训练阶段和测试阶段同时利用局部记忆这就得到了基于局部记忆的基础版TrimeLM模型。长期记忆指的是在同一个文档先前片段中的标记需要依赖于同一个文档的先前片段。为此将同一个文档中的连续片段consecutive segments放入同一个训练批中这就得到了集合长期记忆的TrimeLMlong模型。外部记忆需要结合大型数据存储区进行检索。为此可以利用BM25将训练数据中的相似片段放入同一个训练批中这就得到了结合外部记忆的TrimeLMext模型。综上所述传统的语言模型在训练阶段和测试阶段都没有利用记忆连续缓存方法只在测试阶段采用了局部记忆或者长期记忆k近邻语言模型在测试阶段采用了外部记忆而针对TRIME算法的三种语言模型在训练阶段和测试阶段都采用了记忆增强的方式其中TrimeLM在训练阶段和测试阶段都采用了局部记忆TrimeLMlong在训练阶段针对相同文档的连续片段放入同一批训练在测试阶段结合了局部记忆和长期记忆TrimeLMext在训练阶段针对相似文档放入同一批训练在测试阶段结合了局部记忆、长期记忆和外部记忆。在实验阶段在WikiText-103数据集上进行模型参数247M切片长度3072的测试时基于TRIME算法的三种版本的语言模型都能取得比传统Transformer更好的困惑度perplexity效果其中基于实际距离的TrimeLMext模型可以取得最好实验效果。同时TrimeLM和TrimeLMlong也能保持和传统Transformer 接近的检索速度同时兼具了困惑度和检索速度的优势。在WikiText-103数据集上进行模型参数150M切片长度150的测试时可以看到由于TrimeLMlong在训练阶段针对相同文档的连续片段放入同一批训练在测试阶段结合了局部记忆和长期记忆因此尽管切片长度只有150但是在测试阶段实际可利用的数据可以达到15000实验效果远远好于其他基线模型。针对字符级别的语言模型构建基于TRIME算法的语言模型在enwik8数据集上同样取得了最好的实验效果同时在机器翻译的应用任务中TrimeMT_ext也取得了超过基线模型的实验效果。综上所述基于TRIME算法的语言模型采用了三种记忆构建的方式充分利用同一批内的相关数据实现记忆增强在引入记忆的同时却没有引入大量的计算代价并且没有改变模型的整体结构相比于其他基线模型取得了较好的实验效果。陈丹琦还着重提到了基于检索的语言模型实际上TrimeLMext可以看作是k近邻语言模型的一个更好的版本但是在推断过程中这两种算法相较于其他的基线模型速度要慢接近10到60倍这显然是难以接受的。陈丹琦指出了基于检索的语言模型未来可能的发展方向之一是否可以利用一个更小的检索编码器和一个更大的数据存储区从而实现计算代价缩减到最近邻搜索。相比于传统的语言模型基于检索的语言模型有显著的优势例如基于检索的语言模型可以更好的实现更新和维护而传统的语言模型由于利用先前知识进行训练无法实现知识的动态更新同时基于检索的语言模型还可以更好的利用到隐私敏感的领域中去。至于如何更好的利用基于检索的语言模型陈丹琦老师认为或许可以采用fine-tuning、prompting或者in-context learning的方式来辅助解决。论文地址https://arxiv.org/abs/2204.00408模型压缩技术被广泛应用于大语言模型让更小的模型能够更快地适用于下游应用其中传统的主流模型压缩方法为蒸馏Distillation和剪枝pruning。对于蒸馏而言往往需要预先定义一个固定的学生模型这个学生模型通常是随机初始化的然后将知识从教师模型传送到学生模型中去实现知识蒸馏。例如从原始版本的BERT出发经过通用蒸馏即在大量无标注的语料库上进行训练之后可以得到基础版本的TinyBERT4针对基础版本的TinyBERT4还可以通过任务驱动的蒸馏方法得到微调过的TinyBERT4最终得到的模型在牺牲轻微的准确度基础之上可以比原先的BERT模型更小且处理速度更快。然而这种基于蒸馏的方法也存在着一定的缺陷例如针对不同的下游任务模型的架构往往是固定不变的与此同时需要利用无标注数据从零开始训练计算代价太大。对于剪枝而言往往需要从一个教师模型出发然后不断地从原始模型中移除不相关的部分。在2019年提出的非结构化剪枝可以得到更小的模型但是在运行速度方面提升很小而结构化剪枝通过移除例如前馈层等参数组实现实际应用的速度提升例如2021年提出的块剪枝可以实现2-3倍的速度提升。针对传统蒸馏和剪枝方法存在的局限性陈丹琦团队提出了一种名为CofiPruning的算法同时针对粗粒度单元和细粒度单元进行剪枝并设计了一个逐层蒸馏的目标函数将知识从未剪枝模型传送到剪枝后的模型中去最终能够在保持超过90%准确率的基础之上实现超过10倍的速度提升比传统的蒸馏方法计算代价更小。CofiPruning的提出建立在两个重要的基础工作之上1针对整层剪枝可以获得速度上的提升相关工作指出大概50%左右的神经网络层是可以被剪枝的但是粗粒度的剪枝对准确率的影响比较大。2是对更小单元例如头部进行剪枝可以获得更好的灵活性但是这种方法在实现上会是一个更有难度的优化问题且不会有太大的速度提升。为此陈丹琦团队希望能够在粗粒度单元和细粒度单元同时剪枝从而兼具两种粒度的优势。除此之外为了解决从原始模型到剪枝模型的数据传送CofiPruning在剪枝过程中采用逐层对齐的方式实现知识的传送最终的目标函数包括了蒸馏损失和基于稀疏度的拉格朗日损失。在实验阶段在针对句子分类任务的GLUE数据集和针对问答任务的SQuAD1.1数据集上可以发现CofiPruning在相同的速度和模型规模基础之上比所有的蒸馏和剪枝基线方法表现更好。针对TinyBERT如果没有经过通用蒸馏实验效果会大打折扣但是如果利用通用蒸馏尽管实验效果可以有所提升但是训练时间代价会非常昂贵。而CofiPruning算法不但能够获得与基线模型近乎持平的效果在运行时间和计算代价方面还都有很大提升可以用更少的计算代价获得更快的处理速度。实验表明针对粗粒度单元第一层和最后一层前馈层在最大程度上会被保留而中间层更有可能会被剪枝针对细粒度单元上层神经网络的头部和中间维度更有可能会被剪枝。综上所述CofiPruning是一种非常简单有效的模型压缩算法通过对粗粒度单元和细粒度单元联合剪枝结合逐层蒸馏的目标函数可以联通结构剪枝和知识蒸馏这两种算法的优势从而实现更快的处理速度和更小的模型结构。针对模型压缩的未来趋势陈丹琦还重点提及了是否能够对例如GPT-3这样的大型语言模型进行剪枝同时是否能够对上游任务进行剪枝这些都是未来可以重点关注的研究思路。总结与展望大型语言模型如今取得了非常喜人的实际应用价值但是由于昂贵的环境和经济成本隐私和公平性方面的困扰以及难以实时更新的问题导致大型语言模型仍有很多待改进之处。陈丹琦认为未来的语言模型或许可以用作大型的知识库同时在未来语言模型的规模需要大幅度削减或许可以利用基于检索的语言模型或者稀疏语言模型来代替稠密检索模型压缩的工作也需要研究者们重点关注。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://wiki.neutronadmin.com/news/257844/

相关文章:

  • 生活服务手机网站开发自己做网站处理图片用什么软件下载
  • 汕头网站制作怎么做设计网页的步骤是什么
  • 朝阳制作网站深圳自适应网站的公司
  • 樟木头镇网站建设公司昆山哪里有做网站的
  • 网站建设尽量湖北省城建设计院网站
  • 如何介绍网站模板博客 wordpress主题
  • 网站建设 域名业务 邮箱大数据智能营销
  • 代理注册个公司一般需要多少钱湘潭网站建设优化建站
  • 公司向要做一个网站要怎么做班级网站做哪些方面
  • 手机网站 禁止缩放徐州双语网站制作
  • j建设网站需要的工具佛山网页搜索排名提升
  • iis配置wap网站万网域名注册官网续费
  • 建设铝合金窗网站linux网站建设模板
  • 哪些网站可以做海报搜索软件排行榜前十名
  • 企业网站的建设公司价格怎么下载网站源码
  • 开发网站好还是app代做课件ppt
  • 珠海市企业网站制作服务机构网站模版是什么意思
  • 云浮市哪有做网站的全屏网站大小
  • 郑州做网站九零后网站空间代理
  • 网站建设的整体框架长春网站建设推广优化
  • 重庆百度网站推广室内设计平面图简单
  • 宿迁手机网站开发公司电商网站开发难点
  • 如何做网站充值三把火科技网站设计
  • 网站开发费用科目开网站做代销好
  • 沈阳建站费用手机网站dedecms
  • 萍乡做网站的公司有哪些未来做哪些网站致富
  • 杭州做公司网站网站的分类有哪些类型
  • 化妆品网站 源码wordpress伪静态格式
  • 美食网站建设设计方案百度地图收录提交入口
  • 学校门户网站建设工作网络推广方案写作七步法