当前位置: 首页 > news >正文

免费wordpress网站模板响应式网站建设哪家公司好

免费wordpress网站模板,响应式网站建设哪家公司好,成都网络推广外包,租用云服务器一年大概的费用1 Decoder端的输入解析 1.1 Decoder端的架构 Transformer原始论文中的Decoder模块是由N6个相同的Decoder Block堆叠而成#xff0c;其中每一个Block是由3个子模块构成#xff0c;分别是多头self-attention模块#xff0c;Encoder-Decoder attention模块#xff0c;前馈全…1 Decoder端的输入解析 1.1 Decoder端的架构 Transformer原始论文中的Decoder模块是由N6个相同的Decoder Block堆叠而成其中每一个Block是由3个子模块构成分别是多头self-attention模块Encoder-Decoder attention模块前馈全连接层模块。 6个Block的输入不完全相同: 最下面的一层Block接收的输入是经历了MASK之后的Decoder端的输入 Encoder端的输出.其他5层Block接收的输入模式一致, 都是前一层Block的输出 Encoder端的输出. 1.2 Decoder在训练阶段的输入解析 从第二层Block到第六层Block的输入模式一致, 无需特殊处理, 都是固定操作的循环处理.聚焦在第一层的Block上: 训练阶段每一个time step的输入是上一个time step的输入加上真实标签序列向后移一位. 具体来说, 假设现在的真实标签序列等于How are you?, 当time step1时, 输入张量为一个特殊的token, 比如SOS; 当time step2时, 输入张量为SOS How; 当time step3时, 输入张量为SOS How are, 以此类推...注意: 在真实的代码实现中, 训练阶段不会这样动态输入, 而是一次性的把目标序列全部输入给第一层的Block, 然后通过多头self-attention中的MASK机制对序列进行同样的遮掩即可. 1.3 Decoder在预测阶段的输入解析 同理于训练阶段, 预测时从第二层Block到第六层Block的输入模式一致, 无需特殊处理, 都是固定操作的循环处理.聚焦在第一层的Block上: 因为每一步的输入都会有Encoder的输出张量, 因此这里不做特殊讨论, 只专注于纯粹从Decoder端接收的输入. 预测阶段每一个time step的输入是从time step0, input_tensorSOS开始, 一直到上一个time step的预测输出的累计拼接张量. 具体来说: 当time step1时, 输入的input_tensorSOS, 预测出来的输出值是output_tensorWhat;当time step2时, 输入的input_tensorSOS What, 预测出来的输出值是output_tensoris;当time step3时, 输入的input_tensorSOS What is, 预测出来的输出值是output_tensorthe;当time step4时, 输入的input_tensorSOS What is the, 预测出来的输出值是output_tensormatter;当time step5时, 输入的input_tensorSOS What is the matter, 预测出来的输出值是output_tensor?;当time step6时, 输入的input_tensorSOS What is the matter ?, 预测出来的输出值是output_tensorEOS, 代表句子的结束符, 说明解码结束, 预测结束. 2 小结 在Transformer结构中的Decoder模块的输入, 区分于不同的Block, 最底层的Block输入有其特殊的地方. 第二层到第六层的输入一致, 都是上一层的输出和Encoder的输出. 最底层的Block在训练阶段, 每一个time step的输入是上一个time step的输入加上真实标签序列向后移一位. 具体来看, 就是每一个time step的输入序列会越来越长, 不断的将之前的输入融合进来. 最底层的Block在训练阶段, 真实的代码实现中, 采用的是MASK机制来模拟输入序列不断添加的过程. 最底层的Block在预测阶段, 每一个time step的输入是从time step0开始, 一直到上一个time step的预测值的累积拼接张量. 具体来看, 也是随着每一个time step的输入序列会越来越长. 相比于训练阶段最大的不同是这里不断拼接进来的token是每一个time step的预测值, 而不是训练阶段每一个time step取得的groud truth值.
http://wiki.neutronadmin.com/news/236826/

相关文章:

  • 做网站用什么语哪里有制作网站
  • 建设网站需要注意的事项企业网站空间选择
  • 网站服务器租用价格怎么算海口网站制作公司
  • 商品图片网站开发网页设计师工资一般多少钱
  • 网站搭建技术方案广告优化是做什么的
  • 网站建设这门课好学吗大石桥网站建设公司
  • dede后台做两个网站深圳银行网站建设
  • dedecms 网站标题 设置宿迁558网络专业做网站
  • wordpress 4.9 多站php 网站安装原理
  • 成年男女做羞羞视频网站网站做的好看术语
  • 江西网站开发联系方式wordpress网站换字体
  • 领优惠券的小网站怎么做室内设计师在哪里找
  • 做网站花钱么wordpress 中英双语
  • 杭州网站建设推广公司加盟微信小程序代理
  • 做封面字体下载好的网站html5个人网页完整代码
  • 东莞网站设计流程wordpress给模板添加title
  • 招标网站建设申请报告丽水网站建设企业
  • 成都门户网站有哪些成品影视app开发工具
  • 山东临沂市需要建设网站的公司哪些网站做推广
  • 建设工程施工许可证查询网站WordPress内网外网访问
  • 免费咨询身高发育珠海百度关键字优化
  • dw网页制作素材网站seo链接优化建议
  • 外贸行业建站制作衣服的软件app
  • 购物网站开发和运行环境普通人学python有意义吗
  • 网页游戏平台网站wordpress选择表
  • 网站管理助手怎么使用网页美工设计教学设计
  • 网站开发配置管理计划企业信用信息系统官网
  • 网站开发怎么谈客户钓鱼网站在线下载
  • 网站建设需要多少钱大型电商网站开发实践
  • 常州网站建设套餐网站刷链接怎么做