TD损失:用于鲁棒医学图像分割的Dice损失泰勒展开文献速递/基于多模态的医学影像分割与理解

📅 2026/7/3 6:30:25
TD损失:用于鲁棒医学图像分割的Dice损失泰勒展开文献速递/基于多模态的医学影像分割与理解
2026.7.2本文将Dice loss泰勒展开为多阶多项式TD loss并用动态权重TD loss提升医学图像分割在噪声标签下的鲁棒性。Title题目01TD损失用于鲁棒医学图像分割的Dice损失泰勒展开TD loss: Taylor expansion of Dice loss for robust medical image segmentation文献速递介绍02论文从医学图像分割对高质量像素级标注的依赖出发指出人工勾画器官和病灶既耗时又依赖专家经验容易受到主观差异、模糊边界、低对比度和小目标等因素影响而产生标签噪声。Dice loss因直接优化预测区域与真实区域重叠度能缓解前景背景类别不平衡是医学分割中最常用的目标函数之一。作者首先分析Dice loss的梯度特性对前景像素而言预测值越接近正确值其梯度贡献越小其他前景像素总体预测越充分单个像素的梯度也会相应减弱这有助于模型避免过度偏向前景或背景。然而Dice loss的函数形式较固定缺少可调的高阶多项式结构且在噪声标签增多时性能显著下降。受交叉熵泰勒展开和PolyLoss思想启发作者提出将Dice loss展开为多阶多项式并截断得到TD loss再通过动态权重形成TD loss。引言最后概括了贡献提出新的噪声鲁棒分割损失给出对称与非对称噪声鲁棒性的理论证明分析梯度性质并在多数据集和多架构上验证有效性。相关工作相关工作首先回顾医学图像分割模型的发展包括UNet、UNet、MultiResUNet、CE-Net、Attention-UNet、CA-Net、TransUNet和SwinUNet等编码器解码器或Transformer架构。这些模型虽在结构上不断增强特征表达、长程依赖和注意力机制但通常仍依赖交叉熵、Dice loss或二者组合进行优化因此面对标签噪声时仍可能脆弱。随后论文总结医学图像噪声标签学习方法包括显式建模标注者可靠性和噪声转移矩阵、利用训练动态进行标签纠正、估计噪声像素并细化标签、空间自适应标签平滑以及基于少量干净标注的重加权等。这些方法通常需要额外模块、干净数据或复杂训练机制。最后作者讨论鲁棒损失函数如MAE、GCE、SCE、归一化损失和Jensen-Shannon类损失这些方法主要面向分类任务而本文则从医学分割常用的Dice loss本身出发构造适合密集预测任务的鲁棒目标并扩展噪声鲁棒性理论到分割场景。TD loss用于医学图像分割这一节是论文的核心方法与理论部分。作者先给出多类别分割中的Dice loss定义并在像素独立假设下将某一类某个像素的Dice loss写成关于该像素预测值的分式形式其中C1表示除当前像素外预测与真实前景重叠相关的项C2表示预测总量与真实区域大小相关的项。通过分析C2减C1的上下界论文解释了Dice loss如何反映其他前景和背景像素对当前像素梯度的影响。作者进一步推导Dice loss关于当前像素预测值的一阶与高阶导数说明其梯度绝对值随当前预测值增大而单调减小并且会随其他前景预测总量增大而下降。接着作者证明Dice loss要成为MAE和GCE等鲁棒损失的下界需要较强条件例如C2等于C1加1这在实际训练中几乎等价于其他像素预测完全匹配标签因此原始Dice loss的鲁棒性受限。Dice loss的泰勒展开与TD loss定义作者在前景像素的正确预测点附近即预测值等于1处对Dice loss进行泰勒展开。去掉常数项后保留前t项得到TD loss对于前景像素损失由若干个关于1减预测值的幂次项组成对于背景像素则由预测值的幂次项组成。每一阶多项式的系数由C1、C2以及阶数决定因此TD loss不仅继承Dice loss对全局前景背景信息的感知还引入了可通过截断阶数t调节的多项式结构。t越大表达能力越强更有利于拟合干净数据t越小理论风险差界更紧噪声鲁棒性更强。论文后续实验也验证了这一折中无噪声时较大t通常更好而在40%高对称噪声下t等于2更稳定。TD loss的梯度分析在梯度分析中作者重点考察前景像素的TD loss梯度。TD loss的梯度绝对值同样随当前像素预测值增大而单调减小这与Dice loss一致意味着容易分类的点会逐渐降低更新贡献困难点则获得更多关注。论文将梯度分解为与当前预测误差相关的多项式求和项和一个由C1、C2决定的梯度权重。该权重会随其他前景像素预测总量增大而减小从而避免模型过拟合前景同时在较弱条件下它会随背景误预测总量增加而增大使模型在背景混淆严重时加大修正力度。这说明TD loss并非简单削弱所有梯度而是在保留Dice loss全局平衡机制的基础上对噪声不匹配区域提供更可控的梯度响应。噪声鲁棒性分析与损失边界作者将医学分割视为像素级分类问题基于有界损失的鲁棒学习理论分别分析对称噪声与非对称噪声。对于对称噪声如果每个像素上跨类别累计损失存在上下界则干净标签最优分割器与噪声标签最优分割器之间的风险差可由上界和下界之差控制对于非对称噪声在正确类别保持概率高于任一错误类别的条件下也可得到类似的风险差上界。随后作者证明TD loss满足这种有界性并且上界与下界之差显式依赖截断阶数t较小t带来更紧的风险差界因而更适合强噪声环境。论文还证明TD loss在较弱条件下可作为MAE、GCE的下界并且一般情况下被TCE loss上界约束。这些结果共同说明TD loss的惩罚尺度不高于典型鲁棒损失同时又保留Dice类分割损失的区域重叠优化优势。动态多项式权重调整由于TD loss由多个阶数的多项式项组成不同任务和数据集可能需要不同阶项组合。为避免人工指定固定权重作者提出TD loss将每个多项式阶项看作一个子任务并通过min-max优化动态平衡各阶损失。内层最大化在非负且二范数归一的权重约束下寻找最需关注的多项式项KKT条件给出闭式权重解每阶权重与该阶损失值成正比并由所有阶损失的平方和归一化。最终优化可转化为最小化各阶多项式损失平方和的形式。该动态多项式权重估计策略DPWE能够让训练过程根据任务、数据集和当前迭代状态自适应调整阶项贡献从而形成更稳定、更具任务适应性的TD loss。实验设置实验覆盖四类医学分割场景ISIC2018皮肤镜皮损分割、BUSI乳腺超声肿瘤分割、LA钆增强MRI左心房分割和Pancreas-CT腹部增强CT胰腺分割。ISIC2018和BUSI用于全监督实验并人为加入0%、20%、30%、40%、50%的对称标签噪声LA和Pancreas-CT用于半监督实验通过Self-Training和CPS中的伪标签错误模拟非对称噪声。评价指标包括DSC和JI三维数据还使用95HD与ASD衡量边界误差。实现方面二维全监督实验采用Adam优化器学习率0.0001batch size为16训练500个epoch三维半监督实验采用SGD、多项式学习率衰减和15K最大迭代。除超参数消融外TD loss默认截断阶数t设为2。超参数t与动态权重消融在ISIC2018上作者用UNet和Attention-UNet研究截断阶数t的影响。结果显示在干净数据下t增大通常带来更高DSC因为高阶多项式增强了损失函数的表达灵活性但在40%强对称噪声下较小t尤其是t等于2表现更稳定较大t会使模型更容易拟合噪声。这与理论中较小t带来更紧风险差界的结论一致。动态权重实验则比较固定多项式权重与DPWE在ISIC2018和BUSI上不同固定权重组合的验证曲线波动和优劣随任务变化明显而DPWE曲线整体更平滑在不同t和数据集上表现更稳定说明TD loss能减少手工权重选择的不确定性。对称噪声下的比较实验在ISIC2018和BUSI上作者将Dice loss、TD loss和TD loss应用于UNet、UNet、Attention-UNet和SwinUNet四种网络。结果显示无论干净标签还是不同噪声率TD loss与TD loss几乎都优于Dice loss并且噪声越强优势越明显。在ISIC2018上以UNet为例50%噪声下Dice loss的平均DSC降至82.43%而TD loss和TD loss分别保持在86.01%和86.43%。在SwinUNet上50%噪声下TD loss相对Dice loss也提升约2.37个DSC点。在BUSI上趋势更突出例如UNet在50%噪声下Dice loss平均DSC为65.46%TD loss和TD loss分别达到69.18%和70.47%。可视化结果显示TD loss能减少Dice loss常见的过分割、欠分割和伪前景岛使预测边界更贴近真实病灶轮廓。非对称伪标签噪声下的比较实验半监督医学分割中Self-Training和CPS依赖伪标签训练未标注数据而伪标签通常由argmax生成错误并非均匀随机更可能发生在解剖相邻或强度相似类别之间因此属于非对称噪声。作者在LA和Pancreas-CT上将Dice loss替换为TD loss形成Self-Training*和CPS*。在LA数据集上TD loss在10%和20%标注比例下均提升DSC和JI并改善边界误差例如20%标注比例下CPS的DSC为87.04%CPS*提升至88.48%。在Pancreas-CT上TD loss同样在Self-Training和CPS中提高分割完整性和稳定性例如10%标注比例下CPS从68.13% DSC提升到70.33%20%标注比例下CPS从76.08%提升到76.95%。可视化结果显示TD loss在左心房和胰腺任务中生成更连续、更接近解剖结构的预测。与其他鲁棒损失及计算效率比较论文进一步将TD loss与MAE、GCE、TCE等典型鲁棒损失比较。作者指出这些损失主要来自分类任务未必适合分割中的密集预测、类别不平衡和空间一致性要求TD loss则从Dice loss出发更自然地继承前景背景平衡和区域重叠优化特性。箱线图结果显示在ISIC2018对称噪声和LA非对称伪标签噪声下TD loss的DSC分布更集中离群点更少整体稳定性优于其他鲁棒损失。计算效率方面TD loss和TD loss相对Dice loss仅带来小幅训练开销随着t增大每个epoch耗时逐渐上升但幅度有限同一t下TD loss与TD loss的时间差通常很小。由于损失函数只在训练阶段使用推理阶段耗时不变。Aastract摘要03医学图像分割常受到主观标注、边界模糊、低对比度和小目标等因素影响训练标签中不可避免存在噪声而常用Dice loss在高噪声下性能明显退化。本文提出TD loss即在像素独立假设下对Dice loss进行泰勒展开并截断前t项从而保留Dice loss有利于前景背景平衡的梯度特性同时降低噪声标签对参数更新的影响。作者进一步提出TD loss通过基于min-max优化的动态多项式权重估计策略自适应调整不同阶项贡献。理论上论文用有界风险差分析证明TD loss对对称噪声和非对称伪标签噪声均具有鲁棒性并说明其在较弱条件下可作为MAE、GCE、TCE等鲁棒损失的下界。实验在ISIC2018、BUSI、LA和Pancreas-CT四个数据集及多种分割网络和半监督框架上验证TD loss和TD loss在不同噪声水平下普遍优于原始Dice loss。Conclusion结论04论文总结认为TD loss通过对Dice loss进行泰勒展开在医学图像分割中提供了一种兼具Dice梯度特性和标签噪声鲁棒性的目标函数。理论分析表明它对对称噪声和伪标签非对称噪声都有风险差界保证并可与MAE、GCE、TCE等鲁棒损失建立边界关系实验则显示其在多数据集、多模型和多监督范式下均能提升分割性能。TD loss进一步通过DPWE增强任务适应性。局限方面第一计算成本会随多项式阶数t上升可能影响大规模三维分割训练第二当前推导假设像素独立未显式建模解剖结构中的空间相关性第三非对称噪声分析假设正确类别概率仍高于任一错误类别尚不能覆盖强类别偏置噪声。作者计划引入类别相关多项式权重、可学习噪声转移估计、不确定性感知和空间自适应扩展并将方法推广到更多分割任务。Figure图05图1.该图展示在一个包含101个前景像素的图像中当前前景像素预测值变化时Dice loss梯度幅值的变化。曲线表明当前像素预测值越高梯度幅值越小其他前景像素预测值越大当前像素梯度也越小。这解释了Dice loss为何能在一定程度上避免模型过度更新已较好预测的前景区域并为TD loss保留类似梯度结构提供动机。图2.该图比较UNet在BUSI和ISIC2018数据集上使用Dice loss和TD loss时随对称标签噪声率升高的DSC变化。两者性能都会下降但TD loss下降更慢尤其在高噪声率下优势明显直观说明泰勒展开后的TD loss比原始Dice loss更抗噪。图3.该图用前景区域、背景区域和预测区域的关系说明C1与C2的组成。C1主要对应预测与真实前景重叠的部分C2则包含预测总量和真实区域大小等信息。该图帮助理解TD loss系数为何能感知全局前景背景状态而不只是对单个像素独立施加惩罚。图4.该图在固定C1等于2、C2等于3时对前景像素预测值处于0到0.3的严重不匹配区域比较Dice loss与不同t值TD loss的损失曲线和梯度响应。TD loss的惩罚和梯度幅值整体低于Dice loss说明它能减小噪声标注像素对参数更新的破坏性影响。图5该图展示UNet和Attention-UNet在ISIC2018上使用不同t值时在干净、20%噪声和40%噪声条件下的DSC。干净数据中较大t有利于拟合并略提升性能而高噪声条件下较小t更鲁棒尤其t等于2表现更稳定验证了理论中t控制风险差界和优化动态的作用。图6该图比较不同固定多项式权重组合与DPWE动态权重策略在ISIC2018和BUSI上的验证曲线。固定权重在不同数据集和t值下波动较大而DPWE对应曲线更平滑、更稳定说明TD loss能根据任务自动调整阶项贡献减少人工调参依赖。图7.该图展示UNet、UNet、Attention-UNet和SwinUNet在皮肤病灶分割任务中分别使用Dice loss和TD loss的预测边界。绿色为预测边界、红色为真实边界。TD loss通常能减少过分割和欠分割使边界更贴近真实病灶体现其在二维皮肤镜图像中的实际分割改进。图8.该图展示不同网络在BUSI乳腺超声图像上使用Dice loss和TD loss的分割结果。超声图像噪声强、边界模糊Dice loss结果更容易出现伪前景和边界偏移而TD loss预测区域更紧凑、更贴近肿瘤轮廓说明其对困难边界和噪声标签更稳健。图9.该图比较Self-Training和CPS框架在LA左心房分割任务中使用Dice loss和TD loss的结果。TD loss得到的三维结构更完整DSC明显更高表明它能缓解伪标签带来的非对称噪声影响提高半监督分割质量。图10.该图展示Pancreas-CT任务中Self-Training和CPS使用不同损失的预测。胰腺形态细长且边界模糊Dice loss容易产生断裂或缺失TD loss能得到更连续完整的胰腺结构说明其在复杂三维器官分割和伪标签噪声下具有优势。图11.该图在ISIC2018对称噪声和LA非对称伪标签噪声下比较TD loss、MAE、GCE和TCE的DSC分布。TD loss整体分布更集中离群点更少说明它相比分类任务中常用鲁棒损失更适配医学分割的密集预测场景。图12.该图比较Dice loss、不同t值TD loss和TD loss在ISIC2018与BUSI上、不同网络中的平均每epoch训练时间。TD loss相对Dice loss只增加小幅训练开销t越大耗时略增TD loss与TD loss差异很小由于只影响训练推理时间不变。