LearnIR突破传统限制:多数据集实验PSNR大幅提升,5步采样高效复原图像! 📅 2026/7/3 10:09:54 LearnIR能否解决真实场景图像复原难题ICLRInternational Conference on Learning Representations是聚焦机器学习与深度学习等领域的国际顶级学术会议致力于推动人工智能理论与方法的前沿研究与创新发展。本文入选ICLR 2026ICLR 2026有19525篇投稿接收率约27.4%。1. 论文聚焦的问题本文主要针对真实世界图像复原问题即从受到复杂退化如雾霾、阴影、噪声、运动模糊等影响的图像中恢复出高质量、高保真的清晰图像。真实世界中的成像环境往往引入多种异质退化且这些退化常常同时出现并相互交织使得图像复原成为一个经典的病态逆问题。现有基于扩散模型的图像复原方法存在三类核心限制条件生成方法难以在忠实复原和真实生成之间取得平衡基于反演的方法将退化图像反演到潜空间的过程中会累积误差导致与输入明显偏差且效率低下后验采样方法如DPS需要精确已知的前向测量算子A例如高斯模糊核、随机掩码等但在真实场景中该算子通常不可获得严重限制了实际应用。2. 核心贡献与效果概览2.1 核心贡献一是提出可学习的扩散后验采样框架LearnIR通过训练轻量级网络直接预测后验采样中的梯度校正项分布无需已知前向退化算子即可实现扩散后验采样校正从根本上突破了传统DPS方法的关键限制。二是提出扩散后验采样校正DPSC利用高斯分布的封闭性证明了前向过程真实后验与模型预测反向分布之间的偏差服从高斯分布进而可以通过训练一个轻量网络来拟合该偏差的均值作为即插即用的正则化项校正扩散轨迹消除采样过程中的结构偏差和色偏等不一致性。三是设计动态分辨率模块DRM采用时间依赖的动态分辨率调度策略在像素空间中实现“从粗到细”的采样过程——高噪声阶段使用低分辨率捕获全局上下文低噪声阶段恢复高分辨率精修纹理细节无需预训练VAE即可简化端到端流水线并降低计算开销。2.2 关键理论论文的核心定理Theorem 1证明在DRM潜空间中DPS梯度正比于模型预测的反向分布与真实前向后验之间的偏差。利用高斯分布的封闭性该偏差可以建模其中均值μ和方差σ²均有解析闭式解。通过训练网络μ_θ去拟合解析均值μ可以有效地引导采样轨迹与真实后验对齐。2.3 效果预览本文公式推导比较多想了解细节的同学可以直接看原文附录推导过程。第一排是原始图第二排是对应处理后的图。在去雾和去阴影数据集上和一些其他模型也有对比效果。3. 论文提出的方法3.1 动态分辨率模块DRM定义时间依赖的缩放因子s(t)在不同扩散时间步将图像映射到不同分辨率的潜空间。早期阶段t≥T/2对图像进行大尺度下采样SSdown聚焦全局结构建模后期阶段t≤T/2恢复原始分辨率SSup精修高频纹理细节。使用高效的非可训练双线性插值实现无需预训练VAE显著降低计算成本。3.2 扩散后验采样校正DPSC在标准去噪损失之外引入一致性正则化项去噪损失约束噪声预测网络ε_θ准确估计残差噪声一致性损失约束校正网络μ_θ拟合前向 - 反向后验偏差的解析均值。总损失函数有特定公式。推理时DPSC作为即插即用模块在每个采样步骤通过μ_θ预测梯度校正自适应修正扩散轨迹。3.3 训练与推理训练采用两阶段策略Stage 1固定分辨率训练DRM关闭聚焦学习DPSC梯度校正Stage 2开启DRM以更小学习率在动态分辨率下微调。推理基于残差扩散的平滑等效变换确定稳定采样起点T仅需5步采样即可生成高质量结果。4. 实验结果展示4.1 数据集与设置实验在5个数据集上进行ISTD阴影去除、O - HAZE/HazyDet/REVIDE去雾以及新构建的FaceShadow数据集人脸阴影去除含30,000对合成数据 1,000对真实数据。所有评估在单张A100 GPU上完成采样步数仅为5步。4.2 阴影去除ISTD数据集LearnIR在mask - based方法中取得最佳表现与mask - free最优方法相比也具有竞争力。4.3 去雾任务O - HAZE / HazyDet / REVIDELearnIR在三个去雾数据集上全面超越所有对比方法在O - HAZE上PSNR提升 2.27 dB在HazyDet上PSNR提升 1.65 dB且SSIM提升 0.124。4.4 人脸阴影去除自建的FaceShadow数据集LearnIR在合成和真实人脸阴影数据上均大幅领先PSNR分别提升 2.44 dB和 1.71 dB。4.5 消融实验消融实验验证了DPSC和DRM两个模块的有效性。去除DPSC导致PSNR下降4.4 dB说明后验采样校正对消除轨迹不一致至关重要去除DRM导致PSNR下降1.27 dB验证了动态分辨率策略对全局结构保持的重要性同时去除两者性能大幅下降至22.86 dB证明两个模块协同配合才能达到最优效果。4.6 计算效率DRM使用非可训练的双线性插值计算开销几乎为零。完整模型仅需5步采样总推理时间约1.6秒。蓝图实验室主要负责移动影像算法创新包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。它致力于不断提升vivo移动影像的算法能力使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用努力为用户提供更加丰富和便捷的影像体验。那么LearnIR未来是否会在更多场景得到应用呢这值得大家持续关注。