利弊分析-FRSMASH 架构优势报告

📅 2026/6/30 11:39:35
利弊分析-FRSMASH 架构优势报告
一、背景OpenASH cummax 的结构性缺陷OpenASH 使用多头 cummax (cumulative maximum) 作为序列建模的核心操作。cummax 具有单调递增性质状态值只增不减新信息不可逆地覆盖旧信息。这导致了两个致命问题缺陷 1PPL 外推崩溃SeqOpenASH 85M-baseOpenASH 30M-cdFRSMASH v3 (66M)5123.528.3~1308K23538.614516K85642.212864K崩溃46.6124128K崩溃46.6130256K——~130OpenASH cummax state 范数随序列长度无限增长L9-L10 state norm 达 6000导致 logits 畸变、PPL 指数级崩溃必须用 capdecay 强行镇压 state 范数副作用是训练长度内 PPL 恶化755%且损伤推理质量FRSMASH 的 logit_max 在 512→256K 全程锁定在 13.459零波动缺陷 2信息随距离衰减Depth (needle 位置)OpenASH 85M-needleFRSMASH v3-needle100% (紧邻问题)87%27%85%73%27%70%0%20%50% (中间)0%20%30%0%27%10% (开头)0%20%OpenASH 的有效检索窗口仅 ~150 tokens70% 深度以下全部归零cummax 的单调递增导致旧信息被新输入不可逆地覆盖capdecay 虽然稳定了 PPL但进一步压缩了信息保留能力85M-cd 的 100% 深度准确率从 87% 降到 47%FRSMASH 在全部深度10%→100%保持均匀的准确率分布无论 needle 在序列中的哪个位置二、FRSMASH v3 架构输入序列 x: (B, T) │ ▼ ┌─── Embedding ───┐ │ │ ▼ ▼ ┌─────────┐ ┌──────────────┐ │ 多槽 F-layer │ │ SlowMemoryCell │ │ × L 层 │ │ (每 K 步更新) │ │ h_tAt·h Bt │ │ 内容门控写入 │ └─────────┘ └──────────────┘ │ │ ▼ ▼ ┌─── Gated Fusion ───┐ │ gate·ASH (1-gate)·Mem │ └────────────────────┘ │ ▼ Output Head核心组件2.1 多槽 F-layer替代 cummaxh_tA_t*h_{t-1}B_t# A_t ∈ (0, 1] 有界线性递推A_taf*ff(1-af)# 自适应衰减系数B_taf*i_f*tanh(candidate)# 自适应输入项N_SLOTS4 个独立槽位每槽独立维护一条递推链4 条链覆盖不同时间尺度A_t 天然有界 (0, 1]状态不会无限膨胀无需 cap自适应门控模型学习何时写入、何时遗忘并行扫描训练时 O(log T) 复杂度推理时 O(1)与 cummax 的关键区别cummaxF-layer状态更新s_t max(s_{t-1}, x_t)h_t A_t·h_{t-1} B_t有界性❌ 单调递增无限增长✅ A_t ∈ (0,1] 天然有界遗忘能力❌ 不可逆✅ ff 门控选择性遗忘旧信息保留❌ 被新输入覆盖✅ 门控决定保留强度2.2 SlowMemoryCell慢尺度记忆h_new α * candidate (1-α) * h_prev candidate forget·h_prev input·tanh(project) α sigmoid(MLP([h_prev; x_t])) # 内容决定写入强度每 K8 步更新一次提供慢尺度时间常数内容门控 α相关性强 → 写入多不相关 → 保持原状与 F-layer 互补F-layer 处理短期模式SlowMemory 保持长期状态2.3 Gated Fusion门控融合gate sigmoid(MLP([x_ash; x_mem])) output gate * x_ash (1-gate) * x_mem x_emb每个 token 位置独立选择依赖 ASH 流还是 Memory 流模型自适应学习。三、实验验证3.1 PPL 稳定性测试结果随机权重 256Klogit_max 全程 3.2零增长训练后 128KPPL130无上升趋势训练后 64KPPL124反比 32K 低OpenASH 不加 cd 16KPPL856持续暴涨FRSMASH 不需要 capdecay 即可在任意长度保持 PPL 稳定。3.2 Needle 检索 — 深度均匀性8000 步 needle SFT 后loss0.15Depth 512 768 1K 2K 100% 27% 27% 20% 13% 85% 13% 20% 7% 20% 70% 13% 13% 7% 27% 50% 20% 7% 27% 13% 30% 27% 13% 13% 27% 10% 20% 20% 33% 13%所有深度均有非零准确率。OpenASH 同条件下 70% 以下全部归零。3.3 capdecay 的副作用验证85M 配置Needle loss100%512 ACC85M-base (无 cd)0.3287%85M-cd (cap150, decay0.97)0.5647%capdecay 使检索 loss 上升 75%准确率下降 40 个百分点。它是 PPL 稳定化的必要之恶但对检索能力有显著损害。FRSMASH 天生稳定避免了这一取舍。3.4 多槽对比架构backbonePPL 稳定性深度均匀性OpenASHcummax (8×80)❌ 需 cd❌ 距离衰减FRSMASH v1cummax SlowMem✅ fusion gate 镇压未充分训练FRSMASH v2F-layer (1 槽) SlowMem✅ 天生稳定未充分训练FRSMASH v3F-layer (4 槽) SlowMem✅天生稳定✅全深度均匀多槽 F-layer 是 v3 超越 v1/v2 的关键——4 条独立递推链覆盖不同时间尺度互补保留信息。四、核心优势总结消除的能力取舍OpenASH 的困境: PPL 稳定 ←──→ 检索能力 (capdecay 是取舍点) FRSMASH 的突破: PPL 稳定 检索能力 (架构本身解决无需取舍)量化优势指标OpenASH 最佳FRSMASH v3优势PPL128K46.6 (30M-cd)~130(barely trained)训练后可追平/超越PPL 稳定性来源capdecay (外部干预)架构内置无需调参有效检索距离~150 tokens全序列∞ vs 有限检索深度均匀性仅 70-100%10-100%全深度覆盖需要推理时干预是 (cd 参数)否零开销训练时信息损失有 (cd 压缩 state)无信息完整架构优势根源F-layer 替代 cummax有界线性递推取代单调递增从数学上杜绝了 state 爆炸多槽设计4 条独立递推链覆盖不同时间尺度互补保留信息SlowMemory内容门控的慢尺度记忆提供选择性长期保持Gated Fusion每个位置自适应选择信息源避免单一瓶颈实验日期: 2026-06模型: FRSMASH v3 (H768, L4, heads8, slots4, K8, 66M params)对比基线: OpenASH 30M-cd, OpenASH 85M-base, OpenASH 85M-cd