当前位置: 首页 > news >正文

马鞍山网站建设兼职石家庄369招聘信息网

马鞍山网站建设兼职,石家庄369招聘信息网,象山网站优化公司,官方网站建设的公司如何计算Transformer 相关模型的参数量呢#xff1f; 先回忆一下Transformer模型论文《Attention is all your need》中的两个图。 设Transformer模型的层数为N#xff0c;每个Transformer层主要由self-attention 和 Feed Forward组成。设self-attention模块的head个数为 …如何计算Transformer 相关模型的参数量呢 先回忆一下Transformer模型论文《Attention is all your need》中的两个图。 设Transformer模型的层数为N每个Transformer层主要由self-attention 和 Feed Forward组成。设self-attention模块的head个数为 n h e a d n_{head} nhead​每一个head对应的维度为 d h e a d d_{head} dhead​self-attention输出维度为 d m o d e l n heads ⋅ d head d_{model} n_\text{heads}\cdot d_\text{head} dmodel​nheads​⋅dhead​。我们可以得到一个Transformer层的参数量为 12 d m o d e l 2 13 d m o d e l 12 d_{model}^2 13 d_{model} 12dmodel2​13dmodel​具体如下 self-attention块的模型参数有Q、K、V的权重矩阵 W Q 、 W K 、 W V W_Q、W_K 、W_V WQ​、WK​、WV​和偏置输出矩阵 W O W_O WO​及其偏置。这4个权重矩阵的大小为 [ d m o d e l , d m o d e l ] [d_{model}, d_{model}] [dmodel​,dmodel​]4个偏置的大小为 [ d m o d e l ] [d_{model}] [dmodel​]所以self-attention块的参数量为 4 d m o d e l 2 4 d m o d e l 4 d_{model}^2 4 d_{model} 4dmodel2​4dmodel​。 Feed Forward块一般由2个线性层组成第一个线性层将维度从 d m o d e l d_{model} dmodel​ 映射成 4 d m o d e l 4d_{model} 4dmodel​ 其权重矩阵 W 1 W_1 W1​的大小为 [ d m o d e l , 4 d m o d e l ] [d_{model}, 4d_{model}] [dmodel​,4dmodel​] 其偏置的大小为 [ 4 d m o d e l ] [4d_{model}] [4dmodel​]。 第二个线性层将维度从 4 d m o d e l 4d_{model} 4dmodel​ 映射成 d m o d e l d_{model} dmodel​其权重矩阵 W 2 W_2 W2​的大小为 [ 4 d m o d e l , d m o d e l ] [4d_{model}, d_{model}] [4dmodel​,dmodel​] 其偏置的大小为 [ d m o d e l ] [d_{model}] [dmodel​]。所以Feed Forward的参数量为 8 d m o d e l 2 5 d m o d e l 8 d_{model}^2 5 d_{model} 8dmodel2​5dmodel​。 self-attention 和 Feed Forward都跟随着layer normalization它有两个可训练模型参数形状都是 [ d m o d e l ] [d_{model}] [dmodel​]。所以2个layer normalization的参数量为 4 d m o d e l 4 d_{model} 4dmodel​。 除了Transformer层之外的参数有 词embedding矩阵的参数量embedding的维度通常等于 d m o d e l d_{model} dmodel​设词表的大小为V则词embedding的参数量为 V d m o d e l Vd_{model} Vdmodel​。位置向量相关有些位置向量表示方式需要学习参数。 所以N层Transformer模型的可训练模型参数量为 N ( 12 d m o d e l 2 13 d m o d e l ) V d m o d e l N(12 d_{model}^2 13 d_{model}) Vd_{model} N(12dmodel2​13dmodel​)Vdmodel​。当 d m o d e l d_{model} dmodel​较大时可以忽略一次项模型参数量近似为 12 N d m o d e l 2 12 N d_{model}^2 12Ndmodel2​。 最后试验一下模型参数估计量与论文是否对的上下表是GPT3和LLaMA的计算对比可以发现数量级是可以对的上的因为我们忽略了一次项所以具体数据与论文不一致。 模型名实际参数量 n l a y e r n_{layer} nlayer​ d m o d e l d_{model} dmodel​ n h e a d n_{head} nhead​ d h e a d d_{head} dhead​估计参数量GPT-3175B961228896128173946175488LLaMA 6.7B6.7B324096321286442450944LLaMA 13.0B13.0B4051204012812582912000LLaMA 32.5B32.5B6066565212831897681920LLaMA 65.2B65.2B8081926412864424509440 参考资料 Transformer 论文模型图来自论文、GPT3的论文等 整理过程中参考的blog: 1. 知乎用户回旋托马斯x 的文章除了计算量外还算了计算量、中间激活等 2 transformer 参数量计算, 3 flops 计算, 4 transformers 参数量计算公式 transfomers 库如何得到参数量
http://wiki.neutronadmin.com/news/286717/

相关文章:

  • 合肥企业网站建设公司哪家好php 网站301
  • 成都 网站建设wordpress改版权设置
  • 国外做的比较的ppt网站有哪些方面wordpress正文底部版权声明
  • 商务网站开发考题自己做网站流程
  • 亳州建设局网站免费注册自媒体账号
  • 做是么网站网络安全公司排名前十名
  • 江干区住房和城乡建设局网站建设网站的建设费用包括什么
  • 企业做网站优点郑州网络营销公司哪家好
  • 快速搭建网站后台网站建设文案详情
  • sql网站模板建设网站你认为需要注意哪些问题
  • 网站开发人员必备技能设计公司网站源码
  • 永康网站建设wordpress新用户默认角色设置
  • 如何做建材网站的线下推广淮安网站建设服务
  • 政务公开网站建设的亮点和建议上海最好的网站建设公司
  • 广告设计网站排行榜前十名有哪些苏州小程序开发外包
  • html 网站链接手机网站调用分享
  • 网站开发应用到的技术名词网站维护升级访问中
  • 五金加工东莞网站建设网站引导插件
  • 网站建设讲话稿如何注册公司地址定位
  • 做网站怎么设置会员如何建设一个视频小网站
  • 东莞营销网站建设价格做食物网站
  • 免费建设外贸网站还原wordpress站点地址恢复
  • 网上做网站 干对缝儿生意金蝶软件多少钱
  • 企业官网网站设计十大永久免费crm
  • 福建省网站建设有限公司盘锦做网站电话
  • 检察院门户网站建设方案漯河市源汇区建设局网站
  • 简单详细搭建网站教程视频郑州地铁app
  • 杭州网站的优化网站总体设计
  • 辽宁网站备案要多久网站开发的毕设开题报告
  • 茶叶网站建设网页设计制作站酷设计网页版