LLM 学习笔记 Day 3：Transformer Block 详解与 RNN 对比

📅 2026/7/2 2:24:35

一、RNN 的两个缺陷1. 串行计算无法并行RNN 的计算依赖于上一个时刻的隐藏状态Hidden Stateh_t f(W * x_t U * h_{t-1})什么是 Hidden State 是 RNN 在当前位置输出的“记忆向量”压缩了从开头到当前位置的全部信息就像一个读完半句话后大脑里的“语义摘要”2. 梯度消失与长距离遗忘RNN 在反向传播时梯度经过多次连乘会趋近于 0梯度消失导致模型无法学习远距离的依赖关系。同时Hidden State 容量有限早期信息在长序列中逐渐被“冲淡”造成遗忘。二、Transformer 如何解决这两个问题1. 并行计算能力Attention Multi-HeadSelf-Attention 让每个 token 直接与整个序列中所有 token 计算相似度这些计算互不依赖可以完全并行。Multi-Head Attention 的进一步优化随机初始化多个不同的参数矩阵W_Q、W_K、W_V每个“头”独立训练模型在训练中自动学会关注不同维度的关系如语法、语义、指代等最后将所有头的输出拼接用一个线性层融合Multi-Head Attention 允许模型从多个表示子空间同时关注不同位置的信息不同的头可以捕捉不同类型的关系。2. 直接建立长距离依赖AttentionRNN 的 token 之间路径长度为 O(n)信息需要一步步传递而 Attention 让任意两个 token 直接相连路径长度恒为 O(1)。所以“遗忘前面信息”的问题从根本上被解决。3. 残差连接Residual Connection解决梯度消失公式输出模块(输入) 输入反向传播时梯度可以通过“ 输入”这条高速通道直接传到前层有效缓解了深层网络的梯度消失。同时每一层学习的只是对输入的“修正增量”原始信息一直保留。4. LayerNorm 稳定训练LayerNorm 对单个样本的所有特征维度做标准化均值 0方差 1让每一层输入的数据分布保持稳定。这加速了收敛也让训练更稳定。三、Transformer Block 完整结构输入 → Multi-Head Self-Attention → 残差连接 → LayerNorm → FFN → 残差连接 → LayerNorm → 输出残差连接保留原始输入防止梯度消失LayerNorm标准化数据分布稳定训练FFN对聚合后的信息做非线性深度加工知识存储和推理四、Transformer vs RNN 对比总结维度RNNTransformer计算方式串行并行长距离依赖弱梯度消失信息遗忘强Attention 直接连接训练效率慢快位置信息天然有序需要 Positional Encoding 显式注入并行能力无强核心机制循环 Hidden StateSelf-Attention FFN稳定性梯度易消失残差 LayerNorm 保证稳定

新闻详情

相关阅读

3步终极修复：用untrunc拯救损坏MP4视频的完整指南

显卡驱动清理终极指南：如何使用DDU解决驱动冲突问题

应届生找不到好工作要不要学技术？为什么推荐学产品结构设计？

2026最新盘点：国内8家靠谱智慧园区厂商值得重点参考

STM32与74HC32实现2x2矩阵键盘的嵌入式系统设计

RAG并未过气：从AI顶流到Agent生态黄金配角

2026年门店小程序平台怎么选？预约、核销和会员储值能力对比

机器人即服务（RaaS）时代来了：机器人租赁平台的技术架构与落地实践

什么企业需要上线机房磁控U位管理？

Selenium元素定位全解析：从八大方法到实战策略

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

UnblockNeteaseMusic终极教程：3分钟解锁网易云音乐灰色歌曲的完整方案

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！