UniVRSE: Unified Vision-conditioned Response Semantic Entropy for Hallucination Detection

📅 2026/6/26 12:17:18
UniVRSE: Unified Vision-conditioned Response Semantic Entropy for Hallucination Detection
标题: UniVRSE: Unified Vision-conditioned Response Semantic Entropy for Hallucination Detection in Medical Vision-Language Models作者: Zehui Liao, Shishuai Hu, Ke Zou, Mengyuan Jin, Yanning Zhang, Huazhu Fu, Liangli Zhen, and Yong Xia预印版引言我们正站在一个医疗人工智能AI新纪元的门槛上。想象一下一位放射科医生每天需要审阅成百上千张CT、MRI或X光片并撰写详细的诊断报告或者回答其他临床医生关于影像的各种问题。这是一项极其繁重且要求高度专注和专业知识的任务。医疗视觉语言模型Medical VLMs可以有效的解决这个问题。领域基础知识视觉语言模型 (VLM, Vision-Language Model): 它能同时“看”懂图像和“读”懂文字并能将两者关联起来。你可以把它想象成一个既能看懂图又能读懂问题的超级智能体。例如你给它一张胸腔X光片并问“肺部有异常吗”一个VLM就能基于图像内容生成文本回答。文中提及的MedGemma、LLaVA-Med等都是这类模型在医疗领域的特化版本。两大关键任务:视觉问答 (VQA, Visual Question Answering): 这是VLM最直接的应用。给定一张医学图像和一个具体问题如“左肺上叶是否有结节”模型需要生成一个准确的答案。答案通常较短是“是/否”或一个短语。视觉报告生成 (VRG, Visual Report Generation): 这是一个更复杂的任务。给定一张或多张医学图像模型需要生成一份完整的、段落式的放射学报告详细描述发现的异常、位置、大小、与先前检查的对比等。这相当于让模型扮演了初级放射科医生的角色。幻觉 (Hallucination): 在大语言模型和视觉语言模型的语境下幻觉特指模型生成的内容虽然语言流畅、看似合理但在事实上与输入的视觉证据相矛盾或无法从图像中得到印证。比如图像中明明没有气胸模型却在报告中写“可见右侧气胸”。这在医疗领域是致命的因为它可能导致误诊、延误治疗甚至危及患者生命严重侵蚀临床信任。预测不确定性 (Predictive Uncertainty): 这是对抗幻觉的核心方法。一个完美的AI模型不仅能在知道答案时给出正确回答还能在不知道或不确定时“坦承”自己的无知。预测不确定性就是对模型“自我怀疑”程度的量化。如果一个模型对一次图像内容摇摆不定它的预测不确定性就高反之如果它非常确信自己的判断预测不确定性就低。直觉上高不确定性往往预示着高幻觉风险。研究的主要背景近年来医疗VLMs取得了进步。然而幻觉问题依然是其走向临床部署的最大障碍。研究人员尝试了多种策略来缓解幻觉数据优化 (Data Curation): 清洗和精炼训练数据减少数据源本身的噪声和偏差。训练正则化 (Training Regularization): 在模型训练过程中引入额外的约束使其更专注于视觉信息减少对语言模式的死记硬背。解码策略优化 (Decoding Refinements): 在模型生成文本的过程中动态调整词元选择策略避免生成偏离事实的内容。尽管这些方法取得了一定成效但幻觉问题依然顽固存在。这引出了一个关键洞察与其徒劳地试图完全“消灭”幻觉不如先学会精准地“检测”它。一个可靠的幻觉检测系统能够在模型的输出中标记出潜在的错误为临床医生提供警示从而在人工复核环节建立一道安全屏障。问题意识当前主流的幻觉检测方法可分为三类但它们各自存在局限监督学习检测器: 需要大量人工标注的“幻觉-正确”数据对来训练一个专门的检测模型。问题: 标注成本极其高昂且模型在没见过的新场景下泛化能力差。外部验证法: 借助外部工具如其他更强的模型、知识图谱、专业视觉模型来交叉验证生成内容的准确性。问题: 引入了对外部资源的依赖增加了计算开销和系统复杂性。如果外部“裁判”本身能力有限或存在偏见检测结果也会失效。基于不确定性的方法: 这是最具吸引力的方向因为它无需外部监督、无需额外模型、可规模化部署。其中一个重要的工作就是语义熵 (Semantic Entropy, SE)。SE最初是为纯文本大语言模型设计的它通过多次采样让模型对同一问题生成多个回答然后对这些回答进行语义聚类将意思相同的回答归为一类最后计算这些“语义群组”的概率分布的熵。熵值越高代表模型在不同观点间摇摆不定越可能产生幻觉。这个方法在纯文本中很有效。然而将SE直接搬到医疗VLM上时发现了致命缺陷VLM过于自信的幻觉 (Overconfident Hallucination)。由于VLMs在大量文本-图像对上预训练它们学到了极强的语言先验 (Language Priors)。比如看到一张模糊的胸片和一个“肺部有什么异常”的问题模型可能仅凭语言概率“浸润”或“结节”这类词在报告中太常见了就生成一个言之凿凿的错误答案即使图像信息不充分。这种情况下即使你对图像施加一些视觉扰动模型依然可能给出同样的回答导致SE计算出的不确定性很低从而无法检测出这个幻觉。简而言之模型被它的“语言习惯”绑架了忽略了“视觉实据”并且对自己的错误坚信不疑。正文背景语义熵 (SE)是一种优秀的幻觉检测指标它通过衡量“模型在说什么意思”上的摇摆程度来评估可靠性。它的计算过程如下多次采样: 对同一个输入问题/指令让模型用较高的“温度”一个控制输出随机性的参数生成M个不同的回答序列。温度越高模型的回答就越多样化。语义聚类: 这M个回答可能在字面上不同但意思可能一样例如“存在心脏增大”和“心影增大”。SE使用一个自然语言推理Natural Language Inference, NLI模型来判断两个句子是否“双向蕴含”也就是意思完全相同。通过这种方式将M个回答聚成N1个语义等价的类别。计算分布: 计算每个语义类别的概率即该类中所有回答的总概率。这样我们就得到了一个语义预测分布 (Semantic Predictive Distribution, SPD)。计算熵: 计算这个分布的熵。熵值越高代表模型的语义预测越分散不确定性越高。自然语言推理 (NLI): 一项判断两个句子之间逻辑关系的任务。给定前提句和假设句判断假设句是“蕴含”entailment、“矛盾”contradiction) 还是“中立”neutral于前提句。在SE中我们只关心“双向蕴含”即两个句子互为充分必要条件意思完全等价。熵 (Entropy): 信息论中的核心概念衡量一个系统的混乱程度或不确定程度。对于一个概率分布熵越大结果越难以预测。这个框架在纯文本领域很成功因为语言模型主要依赖语言知识。但当引入视觉信息后问题变得复杂。VLM在预训练时除了学习“视觉-语言”关联也大量学习了“纯语言”的统计规律。这导致它拥有了强大的语言先验 (Language Priors)。这种先验在某些情况下是好事能帮助模型理解文本。但它也带来了模态偏差 (Modality Bias)模型在做判断时会过度依赖语言的统计相关性而忽视了真正需要“看”的视觉内容。就像一个考试老手看到题目里的一些关键词就能凭借“题感”猜个答案完全不去读题中的图表信息。这就是核心挑战当模型基于强大的语言先验“自信”地给出一个错误的答案时它自身的语义预测分布会非常集中就像一个尖峰导致SE值很低从而无法被检测出来。这就是“过自信的幻觉”。挑战通过放大视觉信息对模型决策的影响来对抗语言先验的主导地位从而暴露那些缺乏视觉基础的、过自信的幻觉。这个思想被称为视觉条件化 (Vision-conditioned)。它的逻辑是如果一个答案是基于可靠的视觉证据如图像中的一个结节那么当我们扭曲或破坏这张图像的视觉细节时模型找到该证据的概率会大幅下降从而对该答案的信心也会显著降低。反之如果一个答案是产生于语言先验那么无论我们怎么扭曲图像只要关键文本还在模型就可能继续依靠“题感”给出同样的答案其信心变化很小。UniVRSE的核心就是去量化这种对视觉变化的“敏感度”。对视觉变化越敏感说明答案的视觉基础越扎实反之则越可能是幻觉。这就是图1想要传达的核心动机。方法术语解释原子事实/声明 (Atomic Fact/Claim): 指一个无法再分解的最小、独立的陈述单元。例如“心脏大小正常双肺清晰”可以分解为“心脏大小正常”和“双肺清晰”两个原子事实。低温度采样 (Low-temperature Sampling): 在生成文本时设置一个较低的温度参数使模型的输出更倾向于选择概率最高的词从而生成更具确定性、更“保守”的文本用于产生那个将被检测的原始回答。一个VQA任务由一个图像x_v和一个问题x_q组成。模型f生成了一个待检测的回答r。我们的目标是判断r是否幻觉。第一步估计语义预测分布 (SPD Estimation)这一步的目标是获得模型在“看到”原始图像或其轻微变换版本时的“观点集合”。图像弱变换 (Image Transformation): 为了模拟“看”的多样性我们对输入图像x_v施加一系列不改变临床语义的温和变换。这就像你从不同角度、在不同光线下看同一张X光片**虽然像素变了但内容没变。**这些变换包括随机裁剪: 裁剪掉图像边缘最多10%的区域。随机旋转: 在-10°到10°之间旋转。随机平移: 将图像在水平或垂直方向移动最多10%。亮度/对比度调整: 在0.8到1.2的范围内随机调整。多样性采样生成: 使用这些经过变换的图像作为输入让模型以高温度进行M次推理生成M个多样化的回答序列{s(i)}。每次推理时都记录下模型生成该序列的词元级概率。语义聚类: 同样地使用NLI模型对这M个回答进行语义聚类得到N1个语义类别。m10,t1.0计算SPD: 将每个语义类别下所有序列的概率加总得到该类的总概率。这样我们就得到了一个反映原始图像语义空间的概率分布。这时我们得到的是[P(c|x_v, x_q)]可以称之为原始视角下的观点分布。第二步推导视觉条件化语义分布 (VSD Estimation)这是UniVRSE的灵魂——视觉对比。图像强扭曲 (Image Distortion): 我们对原始图像x_v施加更强的破坏性噪声生成扭曲图像x_v。这里的关键是这种扭曲要足以破坏细粒度的视觉证据但又不至于让图像完全变成无意义的雪花点。具体做法是注入高斯噪声: 均值为0标准差为0.07。泊松噪声: 缩放因子为70。再次估计SPD: 使用这个扭曲后的图像x_v重复第一步的全部过程得到第二个语义预测分布[P(c|x_v, x_q)]可以称之为扭曲视角下的观点分布。语义空间对齐: 由于两次聚类可能产生不同的类别集合我们使用NLI模型将它们对齐到一个统一的语义空间最终得到两个对齐后的分布P(c|x_v, x_q)和P(c|x_v, x_q)。计算VSD: 这是视觉对比的量化公式它的设计非常巧妙公式:P_dis(c|x_v, x_q) σ((1 λ) * P(c|x_v, x_q) - λ * P(c|x_v, x_q))参数**λ**(视觉放大系数): 这是一个非负数论文中设为1.0控制视觉对比的强度。**σ**** (softmax归一化)**: 确保最终的结果是一个有效的概率分布。公式的核心思想: 让我们来解构这个公式。P(c|x_v, x_q)是原始概率P(c|x_v, x_q)是扭曲后的概率。情景一强视觉基础: 假设某个语义类别c比如“正确报告肺结节”在原始图像下有很高的支持度P(c|x_v) 0.8。当我们扭曲图像后模型对这个类别的支持度骤降P(c|x_v) 0.2。代入公式(11)*0.8 - 1*0.2 1.4。这个差值很大。情景二强语言先验/幻觉: 假设幻觉类别c比如“误报气胸”的支持度主要来自语言先验。在原始图像下P(c|x_v) 0.6。即使扭曲图像模型依然靠“题感”支持它P(c|x_v) 0.55。代入公式(11)*0.6 - 1*0.55 0.65。这个差值很小。结论: 这个公式通过相减放大了那些对视觉变化敏感的回答情景一同时抑制了那些对视觉变化不敏感的回答情景二。经过softmax归一化后我们得到的视觉条件化语义分布 (VSD)就成为了一个全新的、排除了语言先验干扰的、更纯粹反映视觉证据支持度的概率分布。第三步计算视觉条件化语义熵 (VSE) 并检测这是最简单也是最有力的一步。公式:VSE(x_v, x_q) -∑ P_dis(c_i|x_v, x_q) log P_dis(c_i|x_v, x_q)我们直接计算VSD的熵。这个熵值就是VSE (Vision-conditioned Semantic Entropy)分数。检测逻辑:如果一个回答有扎实的视觉基础如情景一VSD会高度集中在一个或少数几个类别上导致VSE很低。模型非常肯定而且这种肯定是基于视觉的。如果一个回答是缺乏视觉基础的幻觉如情景二VSD会因为对比的抑制作用而变得相对扁平各类别概率差异不大导致VSE很高。这反映了模型在“纯视觉角度”上其实是摇摆不定的即使它在语言上很自信。通过在一个验证集上选定一个最佳阈值τ如果VSE τ则判定回答r为幻觉。UniVRSE for VRG视觉报告生成VRG的输出是长篇报告直接对整个报告应用VQA的方法效果不佳。一个句子可能包含多个事实一部分对一部分错。UniVRSE通过一个精巧的流程将长文检测分解为一系列短文检测任务。事实分解 (Factoid Decomposition): 借助外部强大的大语言模型如DeepSeek-V3将模型生成的整篇报告r分解为一系列原子声明Atomic Claims{f_j}。例如报告“双侧胸腔积液左侧量有增加未见气胸”可以被分解为三个声明“双侧胸腔积液”、“左侧积液较前增多”、“未见气胸”。问题生成 (Question Generation): 对于每一个原子声明f_j让LLM自动生成一个验证性问题x_q(j)使得f_j恰好是该问题的答案。例如对于声明“左侧积液较前增多”可以生成问题“与之前相比左侧胸腔积液有何变化”。逐声明检测: 这样对一份报告的检测就转换成了J个独立的VQA子任务(x_v, x_q(j))。每个原子声明都被放到了VQA的框架下。逐声明计算VSE: 对每一个(x_v, x_q(j))对运行我们上面介绍的VQA三步曲计算出一个VSE_j分数。判定:VSE_j分数直接反映了原子声明f_j的视觉基础强弱。高VSE的声明就是潜在的幻觉。这个“化整为零”的策略使得UniVRSE能够对长报告进行精细到每个语句的、可解释的幻觉检测这对于临床审核非常有价值。关键基础要评估UniVRSE的检测能力我们需要一份“标准答案”告诉我们模型生成的哪些回答是幻觉哪些不是。但现有数据集没有这种标注。作者因此提出了ALFA来生成这个“标准答案”。ALFA的流程同样简洁而强大双重分解: 对于一对“模型低温度生成的回答r”和“参考标准答案a”同时进行原子事实分解。参考答案a被分解为n1个原子事实模型回答r被分解为n2个原子声明。语义匹配: 将每个原子声明一个个地与原子事实进行语义比对。这是一个细致的三分类任务匹配的声明 (Matched claim): 声明的意思可以在事实中找到完全或非常一致的依据。数量记为m。幻觉声明 (Hallucinated claim): 声明的内容与事实相矛盾或在参考事实中找不到任何支持。数量记为h。无关声明 (Extraneous claim): 声明引入了参考事实中完全没有的新信息不一定是错的但超出了评估范围。数量记为e。计算比率: ALFA计算的三个核心指标如下匹配率 α_m:α_m m / n2(越高越好表示回答越忠于参考信息)幻觉率 α_h:α_h h / n2(越低越好这是衡量幻觉程度的核心指标在论文中被用作“幻觉标签”)无关率 α_e:α_e e / n2(间接衡量回答是否跑题或啰嗦)ALFA的优势:客观性: 将主观的全篇判断转化为客观的、基于原子事实的语义匹配。这大大降低了人工评估的模糊性和不一致性。细粒度: 不仅能告诉你错了还能告诉你错在哪里、错了几处以及多少内容是匹配的。跨模态鲁棒性: 由于它纯粹基于语义不依赖于特定领域如放射学的硬编码规则因此可以无缝应用于病理学、眼科学等不同模态的图像和报告。有了ALFA提供的高质量“幻觉标签”作为真实基准 (Ground Truth)我们就可以公正地评价各种幻觉检测方法的表现了。结果数据集与模型概览为了证明其通用性实验覆盖了4个VQA数据集: RAD-VQA (放射), SLAKE (多模态), Path-VQA (病理), MIMIC-Diff-VQA (放射)。2个VRG数据集: IU-Xray, CheXpertPlus (均为胸片报告)。3个代表性的医疗VLM骨干模型: MedGemma, LLaVA-Med, HuaTuoGPT-Vision。核心指标解读AUC (Area Under the Curve): 指ROC曲线下的面积。它衡量检测方法将“真实幻觉”排在“真实非幻觉”前面的能力。AUC越高表示方法的排序和区分能力越好。你可以简单理解为“检测准确率”。AUA (Area Under ALFA Curve): 这是本文设计的补充指标。它将所有被检测的样本按VSE分数从低最确信到高最不确定排序。然后计算一个“最确信的X%”的子集的平均幻觉率 α_hX从1%走到100%。AUA就是这条曲线下的面积。AUA越低表示检测方法能在它认为“最确定”的样本中成功地聚拢更多真正正确的回答从而让那个子集的幻觉率极低。主要实验结果分析1. VQA任务的压倒性优势 (Table I)对传统方法的碾压: 在所有数据集和所有模型的组合中UniVRSE几乎都取得了最高的AUC和最低的AUA。这不仅是小幅领先通常是约2%的AUC显著提升。例如在RAD-VQA MedGemma组合上UniVRSE的AUC76.25%高出了第二名SE71.87%整整4.38个百分点AUA也大幅降低。SE的失败与UniVRSE的成功: 这清楚表明简单的语义熵在多模态下确实会失效。UniVRSE通过“视觉条件化”的改进成功地弥补了这个缺陷。自一致性方法的局限: 像RadFlag通过多次回答一致性判断和Cross-Checking用外部模型验证这类方法性能不稳定。Cross-Checking的表现在多个数据集上甚至不如SE这暴露了其对外部模型质量的严重依赖。2. VRG任务的精细化管理 (Table II)UniVRSE在更具挑战的报告生成任务上同样保持了强大而稳定的领先优势。例如在IU-Xray MedGemma组合中UniVRSE的AUC达到了63.06%远超SE的57.78%优势巨大。这证明了“声明分解-问题转换-VSE计算”这一整套流程能够有效处理长文本生成中的精细幻觉将不确定性量化从篇章级推进到了声明级。3. 消融实验证明核心设计的必要性 (Table III)这个实验通过“拆掉”某些模块来反向验证它们的作用。基准SE: 效果最差。基准SE 图像变换 (IT): AUA略有改善说明多样性输入有一定帮助但无法解决本质问题。基准SE 视觉对比 (VC): 效果大幅提升AUC提升2.5%这强有力地证明了视觉对比是UniVRSE性能跃升的核心驱动力。完整UniVRSE (IT VC): 两者结合效果最好。证明多样化的输入为视觉对比提供了更丰富的“信号增益”两者形成互补。4. ALFA的深刻洞见与跨模态泛化** (Table IV)**: ALFA不仅是个打分工具更是个诊断工具。它揭示了不同模型的“性格”MedGemma: 对回答正确率α_m很高但特别喜欢补充无关信息导致α_e很高。像个知识渊博但有点跑题的专家。HuatuoGPT: 回答相对更聚焦α_e低更谨慎。LLaVA-Med: 幻觉问题最严重α_h最高在各个数据集上都表现糟糕。对所有模型: 从VQA到VRG正确率骤降幻觉率和无关率飙升清晰地指出了长文本医疗报告生成的巨大挑战。跨模态泛化的胜利 (Table V): **GREEN是一个专门为放射学报告设计的评估工具。**在放射学数据集上它表现出色93%准确率但一换到病理学数据集准确率就暴跌至76%。而ALFA呢在两个数据集上都保持了极高的准确率99%和93%。这完美地验证了ALFA“基于通用语义匹配而非领域规则”的设计哲学的巨大优势。未来研究方向从检测到缓解: 既然能精准检测到幻觉下一步自然是如何利用这个检测信号来缓解甚至修正幻觉。例如可以将UniVRSE的VSE分数作为一个奖励信号在强化学习框架下对VLM进行微调使其自我纠正减少对错误语言先验的依赖。更复杂的临床场景: 当前实验主要基于公开的、相对规整的数据集。未来的工作需要探索UniVRSE在更贴近真实世界的、充满噪声和复杂情况的临床数据流中的表现。与其他技术的融合: 可以将UniVRSE的不确定性信号与其他检测方法如外部知识验证结合构建一个多层次的、更鲁棒的幻觉防御体系。