机器遗忘machine unlearning这个方向正在被一个很现实的诉求推着往前走出于隐私或版权数据所有者会要求模型删除特定内容。过去大多数研究默认这些请求一次到齐——给定一个遗忘集删一次就完事。但现实并非如此。删除请求往往是随时间陆续到达的模型必须一边持续遗忘新内容一边守住此前已经删过的内容、以及自己的通用能力。这就是这篇论文研究的问题MLLM 终身遗忘lifelong unlearning。这篇被 ICML 2026 接收的工作表面上是提出了一个更大的 benchmark但它真正有价值的贡献是揭示了一个反直觉的事实多模态模型的遗忘要交一笔单模态模型不存在的隐藏税——多模态对齐multimodal alignment。当你从 MLLM 里删一条知识时你并不只是丢掉那条知识你同时还在持续撬动视觉与语言之间的那座桥桥一旦塌整个模型一起废掉。下面我们逐层拆开来读。图 1 多模态遗忘的隐藏税即便只更新单一模态持续的权重修改也会破坏对齐最终拖垮整个模型依据论文 §3.3 与附录 E 重构一、为什么需要 MLUBench现有基准的盲区作者首先论证了立项的必要性。MLLM 遗忘并非无人研究但现有评测基准都有结构性的局限无法支撑终身这个设定下的系统性评估。具体来说MMUBench 只覆盖 20 个概念规模与多样性都不足FIUBench 把范围窄化到人脸信息MLLMU-Bench 则只盯名人画像。更关键的是这些基准都没有去评估顺序遗忘的累积效应cumulative effects of sequential requests——而这恰恰是终身遗忘问题的核心难点所在。一次删除可能只造成轻微损伤但当损伤被一次次叠加模型会不会越删越崩现有工具回答不了这个问题。MLUBench 就是为填补这个空白而设计的。它包含127 个广为人知的真实世界实体分属 9 个类别配套 5,105 张图像和 15,414 个 VQA 对。这些实体被组织成一个顺序遗忘的任务序列提供了一个评估遗忘算法长期表现的完整平台。图 2 MLUBench 的数据构成9 大类真实实体人物类最多30 个合计 127 个实体一个值得注意的设计取舍是MLUBench 用的是真实实体的事实知识而不是像 TOFU、FIUBench 那样的虚构信息。作者的理由很实际——现实场景里你要遗忘的是模型本来就掌握的知识如果用虚构数据使用者还得先在数据集上微调才能种进去再删掉平添麻烦。构造流程也体现了对质量的把控。作者从 Wikipedia 选定 9 类实体通过自动爬虫从 Google Images 下载图片不为每个实体单独设计问题而是为每个类别设计一套共享问题集以抓取该类的共性特征例如对所有电影都问谁执导了这部影片随后用 GPT-4o 生成答案并由人工逐一核验。最后一步尤为关键把每个图文对喂给 LLaVA-v1.6-Vicuna-7B 和 13B只保留两个模型都答对的样本。这一步保证了遗忘前模型确实掌握了这些知识这个前提——否则遗忘无从谈起。此外每个问题还配了 4 个语义等价但措辞不同的变体用于检验遗忘对 prompt 改写的鲁棒性。二、问题形式化终身遗忘到底在优化什么要读懂这篇论文必须先看清它的目标函数到底定义了什么。先看单次的MLLM 遗忘。设MθM_\thetaMθ为参数为θ\thetaθ的 MLLMfi∈Ff_i \in Ffi∈F表示某个待遗忘实体的遗忘信息rj∈Rr_j \in Rrj∈R表示某个保留实体的保留信息。一个遗忘任务被定义为t(Ft,Rt)t (F_t, R_t)t(Ft,Rt)其中Ft{f1,…,fn}F_t \{f_1, \dots, f_n\}Ft{f1,…,fn}为遗忘集Rt{r1,…,rm}R_t \{r_1, \dots, r_m\}Rt{r1,…,rm}为保留集。遗忘后的模型Mθ′M_{\theta}Mθ′需满足两个条件对任意fi∈Ftf_i \in F_tfi∈Ft模型不再展现fif_ifi的多模态知识对任意rj∈Rtr_j \in R_trj∈Rt模型保持对rjr_jrj的原有行为。再看MLLM 终身遗忘。给定一串有序任务T{t1,t2,…,tk}T \{t_1, t_2, \dots, t_k\}T{t1,t2,…,tk}模型需逐个顺序遗忘。记θt\theta_tθt为模型仅遗忘任务ttt之后的参数θT\theta_TθT为顺序遗忘完整个序列后的参数P(Mθ,t)P(M_\theta, t)P(Mθ,t)为模型在任务ttt上的通用性能度量。终身遗忘的目标是minθT∑t∈T(P(Mθt,t)−P(MθT,t))\min_{\theta_T} \sum_{t \in T} \Big( P(M_{\theta_t}, t) - P(M_{\theta_T}, t) \Big)θTmint∈T∑(P(Mθt,t)−P(MθT,t))这个式子值得反复体会。它优化的不是遗忘本身的强度而是「刚遗忘完任务ttt时在ttt上的表现」与「跑完整个序列后在ttt上的表现」之间的差距。作者在脚注里也明确点出该式聚焦于缓解累积退化stability稳定性而非保证底层遗忘方法的绝对效力efficacy。这是一个很重要的定位。它把问题从能不能删干净换成了删完之后会不会越删越崩。读后文的实验和方法时请始终记住这一点——它解释了为什么 LUMoE 这样一个并不真正删除知识的方法能在这个目标下取得高分。三、核心洞察多模态对齐这笔隐藏税这是全文最硬的科学贡献也是整篇论文的主线。作者的论点旗帜鲜明MLLM 终身遗忘不是 LLM 终身遗忘的简单延伸而是一个独立且更难的问题。核心差异就在多模态对齐。在 MLLM 中遗忘方法必须同时保住三样东西——语言模型本身、视觉部件视觉适配器 vision adapter 与多模态投影器 multimodal projector、以及连接二者的对齐关系。这个约束在单模态 LLM 里根本不存在。光提论点不算数。作者设计了一个非常干净的拆解实验来证明它把遗忘过程隔离到单一模态上Unlearn-LLM-Only冻结视觉部件只更新语言主干的权重Unlearn-Vision-Only冻结语言模型只更新视觉部件。结果论文表 1是关键所在无论隔离到哪一侧模型整体都会遭受严重的累积退化。在 Unlearn-Vision-Only 设定下模型在最早的 Task A 上的表现在遗忘完最后的 Task D 之后掉到接近 0。这说明问题根本无法靠只搞定一个模态来解决——因为单模态的持续扰动就足以破坏跨模态的对齐。更进一步作者给出了一个可量化、可直接观测的证据模态间隙Modality Gap即视觉特征质心与语言特征质心之间的 L2 距离。间隙越小代表对齐越好。在 Qwen3-VL-4B-Instruct 上测量遗忘后四个任务的模态间隙全部一致变大。图 3 对齐崩塌的直接证据遗忘后四个任务上视觉与语言表征之间的间隙一致扩大论文表 3Qwen3-VL-4B-Instruct这是这篇论文最有说服力的一张表——它把对齐被破坏这句定性论断变成了一个可测量、可比较的标量。附录 E 的失效分析进一步把损伤拆成三处在 LLM 侧持续遗忘不断腐蚀语言权重而由于知识在 LLM 中是高度纠缠的删除目标知识时会连带损害整体能力在视觉侧持续改写视觉适配器以遗忘特定对象会退化它对非目标对象的通用特征适配能力在对齐侧当视觉表征被持续扰动视觉与语言之间的对齐就会断裂。三者叠加模型整体坍缩。四、评估指标为什么是拒答分数机器遗忘的黄金标准通常被定义为得到一个与从未见过遗忘集、从头重训的模型不可区分的模型。但在 MLUBench 这个设定下初始 MLLM 本就掌握了这些知识要重训一个排除 MLUBench 的模型成本高得离谱黄金标准不再可得。因此依赖重训模型输出的指标如 KS-Test都用不了。作者转而提出了两个基于 GPT-4o 评判的指标。GPT 拒答分数Rejection Score用于度量遗忘质量。核心想法很简单一个未能拒答的回复要么是幻觉要么泄露了被遗忘实体的事实知识而一个高质量的拒答能同时杜绝这两种情况。给定问题、回复和标准答案GPT-4o 从{0,1,2}\{0, 1, 2\}{0,1,2}打分2 分代表高质量拒答。作者特别指出这个指标可能比其他指标更严格——因为模型只有在输出高质量拒答时才能拿高分一个幻觉答案在别的指标如 KS-Test下可能得分不低但在拒答分数下直接归零。GPT 正确性分数Correctness Score用于度量模型效用评估模型在保留集上回答的准确性。同样由 GPT-4o 从{0,1,2}\{0, 1, 2\}{0,1,2}打分2 分代表准确、相关且高质量的回答。每个任务的最终得分为模型得分之和除以最大可能得分之和。这里我先埋一个伏笔拒答分数这个度量对后文将要登场的 LUMoE 是天然友好的。我们在批判性评估一节会回到这一点。五、LUMoE用隔离保护对齐既然反复修改权重会破坏对齐作者的解法干脆利落那就别动主模型。LUMoELifelong Unlearning with a Mixture-of-Experts的设计原则是把遗忘带来的改动隔离在稳定的 MLLM 之外——不去反复改写主模型而是挂载轻量的、任务专属的模块来处理遗忘请求。这一思路借鉴了混合专家MoE框架并结合 LoRA 这类参数高效微调PEFT方法来落地。图 4 LUMoE路由器判断输入是否命中遗忘集——命中则挂载对应 LoRA 专家未命中则交还冻结的原模型依据论文 §5 重构整个方法分两步。第一步是训练 LoRA 适配器作为专家。作者把每个 LoRA 适配器当作 MoE 框架里的一个专门专家对每个任务单独执行遗忘以获得对应的适配器。具体训练方式沿用 Maini et al. 的 POPreference Optimization——它是对 DPO 的改造专注于把模型对齐到拒绝回答遗忘集相关查询上从而让模型倾向于输出拒答如抱歉我无法回答这个问题。第二步是门控路由。这是 LUMoE 的关键元件。作者用 GLM-4V-Plus 这个 SOTA 商用 MLLM 作为路由器分两步走先做实体抽取提示模型从输入中抽出相关实体名再做任务匹配把抽出的实体名与此前已遗忘任务关联的实体作比对。如果命中某个任务的遗忘集就把对应 LoRA 适配器合并进基座模型来处理输入如果没有匹配即属于保留集输入就直接交给原始 MLLM 处理从而保住模型效用。若一个请求同时命中多个适配器则可以把它们一起合并而互不干扰。此外还有错误处理机制当路由器对实体不确定时指示其输出 “None”这类问题被归为保留问题交给原模型处理。作者自己很克制地把 LUMoE 定位为一个有效的基线方法而非终极或完美的解决方案。它的简洁性来自那个核心洞察——通过隔离任务专属改动来保护多模态对齐。六、实验结果现有方法集体崩盘LUMoE 近乎满分实验用的 MLLM 为 LLaVA-v1.6-7B、LLaVA-v1.6-13B 和 Qwen3-VL-4B-Instruct基线为四种广泛使用的遗忘方法梯度上升 GA、梯度差分 GD、KL 最小化 KL、负偏好优化 NPO。所有模型按 Task A → B → C → D 的顺序遗忘每遗忘完一个任务保存检查点并在已遗忘的任务上测试。6.1 顺序遗忘导致严重的累积退化这是一个很强的负面结果。所有基线在终身遗忘过程中遗忘质量和模型效用都出现了显著的累积退化。以 LLaVA-7B 上的 GA 为例它在 Task A 上初始遗忘质量为 0.38但在遗忘完 Task D 之后它在所有此前已遗忘任务上的遗忘质量和模型效用都接近完全退化逼近 0。最戏剧性的是NPO它在 Task A 上拿到了 0.420 的最高遗忘质量但仅仅多遗忘一个 Task B就直接坍塌到 0.005效用从 0.238 归零。图 5 顺序遗忘下的性能坍塌以最早的任务 A 为例权重修改类方法在数步内几乎归零LUMoE 全程贴近上限论文表 2LLaVA-7B下表给出 LLaVA-7B 上各方法在 Task A 上随顺序遗忘的退化轨迹“X-UY” 表示遗忘完任务 Y 之后、在任务 X 上的表现方法A-UAA-UBA-UCA-UDGA遗忘质量0.3800.1950.0350.010GD遗忘质量0.3300.1150.0150.000KL遗忘质量0.2800.1100.0000.000NPO遗忘质量0.4200.0050.0000.005LUMoE遗忘质量1.0001.0001.0001.000LUMoE模型效用0.9300.9300.9300.930这一趋势在 Qwen3-VL-4B-Instruct 上同样成立附录 GGD 在 Task A 上初始遗忘质量为 0.54遗忘完 Task B 后崩到 0.115。跨模型族的一致性强化了现有方法在终身设定下集体失效这一发现。6.2 语言能力被实打实地摧毁论文图 1(b) 给了一个直观的例子。LLaVA-7B 被要求识别一部知名电影的导演遗忘前模型能输出正确答案经过 1 次 GD 遗忘后模型开始回避作答但仍然连贯而在对其他任务进行 3 次 GD 遗忘之后模型输出的是image image image…这样无意义的重复内容。这表明遗忘操作不只删掉了目标知识还腐蚀了模型的核心语言能力。这种损伤还会蔓延到完全无关的通用能力上。作者在 TruthfulQA一个评估常识理解的数据集上测了基线方法的退化GD 的得分从首步遗忘后的 0.528到第二步暴跌至 0.155第三步坍塌到 0.005到最后一步所有基线归零。相比之下LUMoE 在跑完整个终身遗忘序列后TruthfulQA 仅从 41.25% 掉到 40.75%下降 0.50%在 MMBench-EN/CN、CCBench 等一系列通用基准上的掉幅一致低于 0.6%。这是 LUMoE隔离主模型思路最有力的回报之一。6.3 LUMoE 的稳健性矩阵作者把鲁棒性验证做得相当充分几乎堵住了审稿人可能提出的所有质疑换路由器模型GLM-4V-Plus 最佳其次 Gemini再次 GPT-4o换小型开源路由器Qwen3-VL-4B 平均路由准确率 97.1%Qwen3-VL-8B 为 98%换评判模型在 Gemini 与 Claude 评判下LUMoE 遗忘质量仍 0.9、效用 0.85而 GA/GD 等基线一致低于 0.4换基准在 MLLMU-Bench 的 153 个名人画像、3 任务设定下LUMoE 依旧强劲换任务顺序与任务数量5 任务设定下 LUMoE 各指标仍 0.88基线则一两步后完全坍塌甚至用 AutoDAN 的越狱提示攻击——遗忘质量仍保持在 0.95 及以上最大跌幅仅 0.05。6.4 一个优雅的附录发现拒答适配器加性合并不冲突附录 F 有一个我个人很欣赏的结果。直觉上把为不同任务训练的多个 LoRA 适配器加性合并可能引发破坏性干扰。但作者把五个拒答适配器逐步合并AB、ABC…直到 ABCDE后发现合并后每个任务上的遗忘质量不降反升甚至超过单独适配器。原因很巧妙——不同于标准微调里 LoRA 模块各自学习互相冲突的事实任务 A 学答案是 X任务 B 学答案是 YLUMoE 的这些适配器学的都是同一个拒答行为因此彼此不打架。这个解释干净利落也顺带印证了 LUMoE 的可扩展性边界来自别处见下文。效率方面表 9训练一个 LoRA 适配器约 11 分钟单个 QA 对的任务匹配约 2 秒缓存后合并适配器约 4 秒单个适配器约 170MB。七、批判性评估这篇论文的真正分量与软肋前面是论文做了什么。这一节是我作为读者的判断——哪些是扎实的真东西哪些是值得追问的地方。我会尽量把两者分开讲。第一也是最该追问的LUMoE 严格说不是遗忘而是门禁。它从头到尾没有修改主模型的任何一个权重——知识完完整整地留在基座模型里只是路由器拦截了敏感问题并改道到拒答适配器。但论文自己引用的黄金标准是模型与从未见过该数据、从头重训的模型不可区分。LUMoE 离这个标准十万八千里只要你能拿到基座模型的权重知识一字未删。如果数据所有者的诉求是我的数据不能存在于你的模型里那么 LUMoE 根本没有回应这个诉求。本质上论文把问题从删除悄悄换成了拒绝回答——这两件事不是一回事。作者在附录 N 也坦承了这一点一旦路由模型开源整套防护在白盒攻击下就会失效。第二比较的天平是倾斜的。LUMoE 实际上在推理管线里额外塞进了一整个商用 MLLMGLM-4V-Plus作为路由器而基线方法只能修改自己那一个模型的权重。这是拿系统级方案去碾压方法级方案。它接近 1.0 的遗忘质量很大程度上来自路由器 拒答适配器这套组合极其擅长产出干净的拒答——这并不完全是一次对等的较量。第三指标设计对 LUMoE 天然友好存在循环论证的风险。GPT 拒答分数奖励高质量拒答而 LUMoE 本质上就是一个被工程化设计来产出拒答的系统PO 训练的目标就是拒答。一个为产出拒答而生的系统在一个奖励拒答的指标上拿满分——这里有循环论证的味道。那些试图真正降解知识的基线方法产出的是幻觉或乱码在这个指标下得 0。作者用人工标注做了交叉验证附录 H两名计算机博士生标注与 GPT-4o 评判高度一致来缓解这一担忧这点值得肯定但指标对方法的结构性偏好是客观存在的写稿或复现时不应忽略。第四漏检即泄漏。整套系统的命门在于路由器能否正确识别实体。错误处理逻辑是不确定 → 归为保留集 → 走原模型这意味着任何一次假阴性false negative都会把本该遗忘的知识原样吐出来。97%–98% 的路由准确率听起来很高但对隐私或版权这种高风险场景2%–3% 的泄漏率可能就是不可接受的。第五可扩展性作者也承认了。每个任务一个约 170MB 的适配器在百万级请求规模下并不可行——论文明确把这列为开放问题。而且一旦遇到细粒度请求如只忘掉《星球大战》的导演但保留演员适配器数量会进一步膨胀。话说回来这篇论文有几样东西是扎实的真贡献不应被上述批评淹没。多模态对齐这笔隐藏税的洞察是真东西模态间隙的量化测量优雅而有说服力Unlearn-LLM-Only / Unlearn-Vision-Only 的单模态拆解实验设计得非常干净MLUBench 在规模和多样性上确实超过了此前的基准而所有现有方法在终身多模态设定下集体崩盘这个负面结果本身就极具价值——它清楚地暴露了当前方法有多脆。从某种意义上说MLUBench 最大的作用是一座坟场它把现有方法的脆弱性彻底摆上了台面而 LUMoE 之所以赢恰恰是因为它聪明地绕开了那个真正最难的问题——如何在不破坏对齐的前提下真正地从权重里抹掉知识。八、对从业者的意义如果你在做模型隐私或合规相关的工程这篇论文有几点直接的启示。其一在多模态模型上做遗忘不能把它当成 LLM 遗忘的简单照搬。视觉与语言之间的对齐是一个独立且脆弱的约束任何持续改写权重的方案——哪怕只动单侧模态——都有把整个模型拖垮的风险。模态间隙是一个轻量、可监控的对齐健康度指标值得在你的遗忘流水线里挂上。其二隔离改动是一个在工程上非常实用的范式。即便你不认同 LUMoE 算不算真正的遗忘它冻结主模型、用可插拔适配器处理请求的架构在必须保住核心能力的高风险场景下有明确的工程价值——效用保留几乎是免费的未命中就走原模型新请求也能通过训练新适配器来线性扩展。其三想清楚你的合规目标到底是不输出还是不存在。如果监管或数据方要求的是后者知识必须从权重中消失那么 LUMoE 这类门禁式方案并不达标你需要的是真正的权重级遗忘——而这篇论文恰恰说明在多模态终身设定下真正的权重级遗忘仍是一个远未解决的开放难题。