当前位置: 首页 > news >正文

网站开发学生鉴定表牡丹江建设局网站

网站开发学生鉴定表,牡丹江建设局网站,重庆做网站怎么做,wordpress ajax失败如何计算Transformer 相关模型的参数量呢#xff1f; 先回忆一下Transformer模型论文《Attention is all your need》中的两个图。 设Transformer模型的层数为N#xff0c;每个Transformer层主要由self-attention 和 Feed Forward组成。设self-attention模块的head个数为 …如何计算Transformer 相关模型的参数量呢 先回忆一下Transformer模型论文《Attention is all your need》中的两个图。 设Transformer模型的层数为N每个Transformer层主要由self-attention 和 Feed Forward组成。设self-attention模块的head个数为 n h e a d n_{head} nhead​每一个head对应的维度为 d h e a d d_{head} dhead​self-attention输出维度为 d m o d e l n heads ⋅ d head d_{model} n_\text{heads}\cdot d_\text{head} dmodel​nheads​⋅dhead​。我们可以得到一个Transformer层的参数量为 12 d m o d e l 2 13 d m o d e l 12 d_{model}^2 13 d_{model} 12dmodel2​13dmodel​具体如下 self-attention块的模型参数有Q、K、V的权重矩阵 W Q 、 W K 、 W V W_Q、W_K 、W_V WQ​、WK​、WV​和偏置输出矩阵 W O W_O WO​及其偏置。这4个权重矩阵的大小为 [ d m o d e l , d m o d e l ] [d_{model}, d_{model}] [dmodel​,dmodel​]4个偏置的大小为 [ d m o d e l ] [d_{model}] [dmodel​]所以self-attention块的参数量为 4 d m o d e l 2 4 d m o d e l 4 d_{model}^2 4 d_{model} 4dmodel2​4dmodel​。 Feed Forward块一般由2个线性层组成第一个线性层将维度从 d m o d e l d_{model} dmodel​ 映射成 4 d m o d e l 4d_{model} 4dmodel​ 其权重矩阵 W 1 W_1 W1​的大小为 [ d m o d e l , 4 d m o d e l ] [d_{model}, 4d_{model}] [dmodel​,4dmodel​] 其偏置的大小为 [ 4 d m o d e l ] [4d_{model}] [4dmodel​]。 第二个线性层将维度从 4 d m o d e l 4d_{model} 4dmodel​ 映射成 d m o d e l d_{model} dmodel​其权重矩阵 W 2 W_2 W2​的大小为 [ 4 d m o d e l , d m o d e l ] [4d_{model}, d_{model}] [4dmodel​,dmodel​] 其偏置的大小为 [ d m o d e l ] [d_{model}] [dmodel​]。所以Feed Forward的参数量为 8 d m o d e l 2 5 d m o d e l 8 d_{model}^2 5 d_{model} 8dmodel2​5dmodel​。 self-attention 和 Feed Forward都跟随着layer normalization它有两个可训练模型参数形状都是 [ d m o d e l ] [d_{model}] [dmodel​]。所以2个layer normalization的参数量为 4 d m o d e l 4 d_{model} 4dmodel​。 除了Transformer层之外的参数有 词embedding矩阵的参数量embedding的维度通常等于 d m o d e l d_{model} dmodel​设词表的大小为V则词embedding的参数量为 V d m o d e l Vd_{model} Vdmodel​。位置向量相关有些位置向量表示方式需要学习参数。 所以N层Transformer模型的可训练模型参数量为 N ( 12 d m o d e l 2 13 d m o d e l ) V d m o d e l N(12 d_{model}^2 13 d_{model}) Vd_{model} N(12dmodel2​13dmodel​)Vdmodel​。当 d m o d e l d_{model} dmodel​较大时可以忽略一次项模型参数量近似为 12 N d m o d e l 2 12 N d_{model}^2 12Ndmodel2​。 最后试验一下模型参数估计量与论文是否对的上下表是GPT3和LLaMA的计算对比可以发现数量级是可以对的上的因为我们忽略了一次项所以具体数据与论文不一致。 模型名实际参数量 n l a y e r n_{layer} nlayer​ d m o d e l d_{model} dmodel​ n h e a d n_{head} nhead​ d h e a d d_{head} dhead​估计参数量GPT-3175B961228896128173946175488LLaMA 6.7B6.7B324096321286442450944LLaMA 13.0B13.0B4051204012812582912000LLaMA 32.5B32.5B6066565212831897681920LLaMA 65.2B65.2B8081926412864424509440 参考资料 Transformer 论文模型图来自论文、GPT3的论文等 整理过程中参考的blog: 1. 知乎用户回旋托马斯x 的文章除了计算量外还算了计算量、中间激活等 2 transformer 参数量计算, 3 flops 计算, 4 transformers 参数量计算公式 transfomers 库如何得到参数量
http://wiki.neutronadmin.com/news/282263/

相关文章:

  • 西部数码网站管理助手c盘安装关键词工具软件
  • 网站优化就是搜索引擎优化项目建设情况
  • 芜湖网站设计中国建设银行安徽分行网站
  • 青羊区网站建设同ip网站做排名seo
  • 温州最好的网站建设公司丰县建设网站
  • 虚拟主机网站建设有没有做q版头像的网站
  • div嵌套影响网站收录三合一网站建设推广
  • 手机网站有什么区别怎么创建网页桌面快捷方式
  • 网站建设与管理基础佛山大沥网站建设
  • 网站设计开发维护做外贸学网站
  • 中英文网站asp怎么做购物中心招商信息发布平台
  • 怎么用PS做网站横幅建设学习网站
  • wordpress 电商网站珠海网站怎样建设
  • logo网站在线制作青岛中企动力科技股份有限公司
  • 帮人家做网站能赚多少钱平面设计图用什么软件
  • wordpress整站备份一般企业网站建设合同
  • 做网站的准备什么软件页面效果好的网站
  • 网站建设目标的文字北京住房城乡建设部网站八大员
  • 关于网站开发的文档珠海移动网站建设报价
  • 太原企业网站怎么优化网站上地图是怎样做的
  • 制作网站的花多少钱网站建设邮箱免费自助建站
  • 东莞服务公司网站建设昆山网站建设培训班
  • 免费微网站制作教程视频东莞营销网站建设多少钱
  • 网站怎么做市场分析中信建设招聘
  • 自建站怎么做公司门户网站制作需要多少钱
  • 如何建设网站与域名怎么接推广
  • 友谊路街道网站建设品牌网站建设公司
  • 做网赌网站怎么推广wordpress 文章点赞功能
  • 李沧做网站做网站外链需要多少钱
  • 东莞市塘厦网站建设南头专业外贸网站建设公司