当前位置: 首页 > news >正文

免费网站建设自带后台管理程序大连网络广告

免费网站建设自带后台管理程序,大连网络广告,宁波网站建设模板制作,在线设计平台哪个好本文转载自公众号“夕小瑶的卖萌屋”#xff0c;专业带逛互联网算法圈的神操作 -----》我是传送门 关注后#xff0c;回复以下口令#xff1a; 回复【789】 #xff1a;领取深度学习全栈手册#xff08;含NLP、CV海量综述、必刷论文解读#xff09; 回复【入群】#xf… 本文转载自公众号“夕小瑶的卖萌屋”专业带逛互联网算法圈的神操作 -----》我是传送门 关注后回复以下口令 回复【789】 领取深度学习全栈手册含NLP、CV海量综述、必刷论文解读 回复【入群】加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群大V、顶会审稿人云集 回复【0511】领取算法岗面试手册刷offer神器 回复【0424】领取刷论文神器挖掘每日、每月必刷重磅论文 文 | python 前言 近几年来整词遮掩whole word masking, wwm作为一种几乎不增加计算量却能大大提升模型表现的方法被广泛地运用在预训练语言模型中以促进粗粒度语义的整体建模[1]。然而这种方法真的是通用的么论文作者认为中文里词是一个组合单元而非英文中的独立单元。因此对中文的整词遮掩预训练并非天然有效的。论文作者在中文语法改错任务上做了实验。结果表明在字级别纠错任务上wwm效果反而不如逐字遮掩效果好。而在整体任务效果上将逐字遮掩与整词遮掩结合表现更佳。 该论文为复旦自然语言处理组与腾讯AI lab的工作发表于ACL 2022 findings. 论文题目 Is Whole Word Masking Always Better for Chinese BERT?: Probing on Chinese Grammatical Error Correction 论文链接 ACL Findings 2022 https://arxiv.org/abs/2203.00286v2 背景 掩码语言模型与整词遮掩 掩码语言模型是预训练模型中的一个常用的自监督任务。通过遮掩部分输入内容让模型预测还原的方式增强模型的语言建模能力。 而整词遮掩方法利用中文分词的结果在掩码预测时以词为单位进行遮掩可以提高对粗粒度语义的建模能力。如下图所示original masking只遮掩的“模”模型可以很容易地利用输入的“型”来预测被遮掩的内容从而减低语言模型建模难度。而WWMwhole word masking将“模型”两字均遮掩掉可以促进模型整体建模这个词汇促进长距离依赖的建模。 语法改错任务 该论文在中文语法改错任务上展开了任务探索。具体而言可以分为替换和插入两个任务。如下图所示。替换任务中给定句子和需要替换的语段模型生成替换内容以构成通顺语句插入任务中给定句子插入点与插入长度模型生成插入内容以形成通顺的语句。 实验结果 实验结果如下图所示。其中Ours的三个模型是该论文作者自己从头预训练的三个模型用以公平比较。-clm仅使用字级别掩码预测-wwm使用整词掩码预测-clm-wwm同时使用两种掩码预测方式。 从中可以看出在长度为1时即对单字进行补充或替换clm具有明显的优势。而随着需要替换的长度增加wwm的优势更为明显。整体而言看average的结果clm和wwm同时使用可以取得更好的表现。 而在下游任务上的实验表明同时使用clm与wwm在几种预训练设置下都能在下游任务上取得和wwm相当的表现。 小编的总结 整体而言这篇文章其实比较tricky。选择语法改错中按字插入、替换这种任务字级别语言建模任务自然可以取得更好的表现。因为字级别遮掩能够促进模型建模词内的依赖关系。 这种因地制宜因材炼丹的思想是有价值的。在做具体任务的时候必然要考虑具体任务的特点。不会有一种方法简单有效又能通吃所有任务的。 当然因地制宜选择预训练任务肯定是最合适的但如果拿不准的话wwmclm可能是一种更稳妥的选择。 类似的思想还有一些字词多粒度预训练语言模型如AMBERT[2]LatticeBERT[3]等通过在预训练输入中将字词同时考虑进去以提升下游任务表现。 本文转载自公众号“夕小瑶的卖萌屋”专业带逛互联网算法圈的神操作 -----》我是传送门 关注后回复以下口令 回复【789】 领取深度学习全栈手册含NLP、CV海量综述、必刷论文解读 回复【入群】加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群大V、顶会审稿人云集 回复【0511】领取算法岗面试手册刷offer神器 回复【0424】领取刷论文神器挖掘每日、每月必刷重磅论文 萌屋作者python 北大毕业的NLP博士。日常写点论文码点知乎刷点leetcode。主要关注问答、对话、信息抽取、预训练等方向。力扣国服第一python选手经常掉下来。知乎 ID 是 Erutan Lai leetcode/力扣 ID 是 pku_erutan欢迎没事常来逛逛。 作品推荐 恕我直言你的实验结论可能严重依赖随机数种子 AllenAI 发布万能问答系统 MACAW各类题型样样精通性能大幅超越 GPT-3 后台回复关键词【入群】 加入卖萌屋NLP、CV与搜推广与求职讨论群 后台回复关键词【顶会】 获取ACL、CIKM等各大顶会论文集   [1] Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu. 2019. Pre-training with whole word masking for chinese bert. arXiv preprint arXiv:1906.08101. [2] Xinsong Zhang and Hang Li. 2020. Ambert: A pre- trained language model with multi-grained tokeniza- tion. arXiv preprint arXiv:2008.11869. [3] Yuxuan Lai, Yijia Liu, Yansong Feng, Songfang Huang, and Dongyan Zhao. 2021. Lattice-bert: Leveraging multi-granularity representations in chi- nese pre-trained language models. arXiv preprint arXiv:2104.07204.
http://wiki.neutronadmin.com/news/368593/

相关文章:

  • 旅游网站开发方案网站建设要学会编程吗
  • 企业单位网站建设内容需要什么做黄金的网站
  • 室内设计官方网站天津大学生专业做网站
  • 网站建设验收表做销售网站那家好
  • 外贸网站模板推荐潮州市建设局网站
  • 做网商要创建网站吗建设工程教育网官网学员登录
  • 上传网站步骤怎么免费制作网站平台
  • 养老网站建设方案广州番禺网
  • 淘宝联盟交钱建设网站微信h5在哪个网站做
  • 深圳网站设计哪家比较好柳州市建设工程质量安全监督管理处网站
  • 企业网站建设费用属于什么科目免费做自己的网站有钱赚吗
  • 做数据图网站西安市做网站公司
  • 建设网站需要分析什么wordpress媒体库相册
  • 怎么在网站上做模式题库做货代哪个网站上好找客户
  • 建设网站商城后台系统旅游网站制作文献
  • 专业网站开发开发河北建设厅网站没有注册
  • 深圳网站设计制作建设英文定机票网站建设
  • 建筑工程招聘网站哪个好上海4a广告公司
  • 中文网站开发工具百度下载安装2022最新版
  • 黄冈做网站做响应式网站是不是都用rem
  • 建设工程网站新专家入库北京 网站建设600
  • 包头网站设计如何建学校网站
  • 视频播放网站模板国外建设网站情况
  • 企业网站的开发保险购买平台有哪些
  • 上海建设工程招投标在什么网站南宁建设网站哪里好
  • 高级网站开发技术无锡优化网站费用
  • 原材料价格查询网站企业域名如何申请
  • 域名访问过程会不会影响网站访问开发app费用
  • 网站建站麻烦吗百度最怕哪个部门去投诉
  • 太谷网站建设做调研的网站一般有哪些