当前位置: 首页> 汽车> 维修 > Transformer模型

Transformer模型

时间:2025/7/9 12:59:52来源:https://blog.csdn.net/qq_46574748/article/details/140766700 浏览次数: 0次

Transformer在做什么事情?

  1. 下图是一个机器翻译流程:输入中文经过Transformer得到对应翻译的英文
    在这里插入图片描述
  2. 细化流程图:Transformer模型可以拆解为Encoders + Decoders
    在这里插入图片描述
  3. 继续细化:注意所有Encoders是结构上完全相同(参数上不是:也就是说要训练所有的Encoders)的且数量可以自定义,Decoders也是完全相同(参数上不是:也就是说要训练所有的Decoders)的且数量可以自定义,Encoders和Decoders架构不相同
    在这里插入图片描述
  4. Transformer原论文图
    在这里插入图片描述

Encoder细节

Encoder可以分为以下三个部分:
在这里插入图片描述

1. 输入部分

在这里插入图片描述

1.1 Embedding

Embedding 就是用一个数值向量“表示”一个对象(Object)的方法
在这里插入图片描述

1.2 位置嵌入

在这里插入图片描述

上图是RNN的架构,RNN具有天然的时序关系(有先后顺序)
Transformer则是一起处理,增强了速度但是忽略了单词之间的序列关系,所以需要位置编码来告诉模型,单词之间的排列顺序

位置编码公式
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. 注意力机制

在这里插入图片描述
注意力机制计算公式
在这里插入图片描述
例子1:
在这里插入图片描述
例子2:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

残差和Laynorm

在这里插入图片描述

  • x1和x2是词向量
  • 经过位置编码后对应位相加得到新的x1和x2
  • 经过注意力层得到z1和z2
  • 把x和z对应位相加作为残差的一个结果
  • 经过layerNorm后输出

3.1 残差

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

PS:使用LayerNorm而不使用传统BatchNorm

BN

feature scaling为了让模型收敛的更快
在这里插入图片描述
BN:对整个Batch样本的同一纬度做处理
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

LN

在这里插入图片描述

3. 前馈神经网络

在这里插入图片描述

Decoder细节

1. 多头注意力机制

在这里插入图片描述
在这里插入图片描述

2. 交互层

在这里插入图片描述
在这里插入图片描述
encoder和每一个decoder做交互
在这里插入图片描述
encoder生成K、V矩阵
decoder生成Q矩阵
在这里插入图片描述

关键字:Transformer模型

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: