testesttest

📅 2026/7/3 6:47:43
testesttest
DeepSeek R1MLADeepSeek V2/V3先压到低维隐空间只缓存CKV和KR权值融合是提速线性层的避免小矩阵乘DeepSeek V4DeepSeek-V4 不是简单扩大模型而是在“参数规模、长上下文、训练稳定性、推理成本”之间做了一整套结构设计https://zhuanlan.zhihu.com/p/2031146581542580917DSA: DeepSeek Sparse AttentionCSA: Compressed Sparse Attention 压缩稀疏attention, 把每 m4 个 token 的 KV 信息压成一个 compressed KV entry图里右侧的 Lightning Indexer 就是做这个选择的模块。左侧的 Top-k Selector 会把真正需要关注的 compressed KV entries 选出来再和最近的 sliding window KV entries 拼起来送入 attentionHCA: Heavily Compressed Attention HCA 的压缩率是 m’128也就是每 128 个 token 压成一个 KV entrySWASliding Window Attention 保留最近 128 个 token 的未压缩 KV entries。这样模型既能通过 CSA/HCA 看远处也能通过 SWA 看近处。CSA压缩较轻还会做 top-k 选择适合较细粒度的长程信息访问。HCA压缩很重成本更低适合提供远距离的全局背景。SWA保留最近窗口的未压缩信息避免局部信息被过度压缩。然后 CSA 和 HCA 隔层交错interleave奇数层用 CSA偶数层用 HCAPro 前两层全 HCA 除外。两种层各有擅长互补。mHC: residual stream 扩成多份, 限制在一个稳定的空间里报告中对应 doubly stochastic matrix 和 Sinkhorn 投影CSA/HCA 改的是 attention 如何访问上下文mHC 改的是 Transformer block 之间 residual 信息如何传播。一个解决长上下文访问成本一个解决深层复杂结构的信息流和训练稳定性。QWEN3.5参考资料https://zhuanlan.zhihu.com/p/2022070521718666699https://zhuanlan.zhihu.com/p/19716712511237053511、为什么要设计为chunk的模式线性注意力不是对内存消耗小吗GDN 的 chunked 调度是 “状态分片 硬件贴合” 的线性注意力专属优化标准 Attention 的 chunk 只是为了把 O (n²) 矩阵拆小、省显存二者目的、对象、调度粒度完全不一样。GDNGated Delta Net属于线性注意力本质是把 Attention 写成 RNN 式的递推MtMt−1ΔMt,Otf(Qt,Mt)核心维护一个全局隐状态 Md×d序列越长M 的读写压力越大、访存越不规则。Chunked 调度做法把长序列 T 切成多个时间 chunkBT如 512/1024每个 chunk 内部并行计算chunk 间串行递推状态 M同时在 K/V 维度也分块BK/BV贴合 GPU SRAM/Tensor Core 分片效果把 “逐 token 乱序访存” 变成 “chunk 级规整访存”SM 利用率从 30% → 70%–90%显存峰值从 O (Td²) 降到 O (BT・d²)能跑更长序列2、QWEN3.5的核心创新和主要目标是什么主要目标当长上下文处理成为大模型突破性能上限的关键传统 KV Cache的存储桎梏与算力消耗难题亟待破解。核心创新1Hybrid AttentionGDNGated Delta Network 标准 Attention3:175% 层用 GDN线性注意力复杂度从 O(n2) 降到 O(n)长序列256K推理提速最高 19 倍。25% 层用标准 Full Attention保留全局交互避免线性注意力性能塌陷。GDN 本质递推式状态更新 Stexp(gt)⊙St−1ktδt⊤配合因果卷积kernel4做局部时序建模。a、 增量更新GDN 单序列确实比 Attention 慢顺序依赖但它的优势是内存100K 上下文时GDN 状态只需 2MB而 KV Cache 需要 1.6GB800x 差距。这让 Qwen3.5 能支持超长上下文、4 倍并发以及端侧部署。传统 Attention显式存储所有历史 KVkv_cache [(k₁,v₁), (k₂,v₂), …, (kₗ,vₗ)] # O(L) 内存GDN压缩到固定大小的矩阵state S # 128×128始终 64KB先用 α 对当前状态做一次整体衰减再用 β 在当前 key 方向上进行定点清除和写入。