港科大联手快手,让AI画图“减减肥“:一个让图像生成更真实的小技巧 📅 2026/7/1 2:03:06 这项由香港科技大学与快手科技联合完成的研究于2026年6月26日以预印本形式发布在arXiv平台编号为arXiv:2606.27771感兴趣的读者可通过该编号查阅完整论文。你有没有注意到用AI生成的图片有时候看起来有点过头——颜色太艳、光线太亮、边缘过于锐利像是被美颜滤镜调过了头少了一种真实照片该有的自然质感这个问题在AI绘图领域有个专业说法叫做奖励过度优化。说白了就是AI拼命迎合评分标准把图片弄得越来越讨喜却在这个过程中慢慢失去了真实感。研究团队把这个问题比作一位厨师为了赢得烹饪比赛不停给菜肴加盐加香料最终味道过重反而失去了食材本身的鲜味。研究团队发现了一个藏在AI绘图模型深处的有趣规律并据此提出了一个叫做**NormGuard**的小工具能在不影响AI绘图质量的前提下悄悄纠正这种过头的毛病。这个工具的原理非常优雅却被证明在多种不同的AI模型和训练方式上都稳定有效。**一、AI画图是怎么被训练坏的**要理解这项研究先得弄清楚AI绘图模型是怎么工作的以及它是怎么被强化学习训练带歪的。现代的AI绘图模型比如研究中用到的SD3.5-Medium和FLUX.2采用了一种叫做流匹配Flow Matching的技术。可以这样理解AI生成一张图片就像从一团随机的噪点雪花开始一步一步把它雕刻成一张清晰的照片。在这个雕刻过程中每一步都有一个方向和速度告诉模型该往哪里走、走多快这个方向和速度合在一起就叫做速度场velocity。为了让AI生成的图片更符合人类审美研究人员会用强化学习对模型进行二次训练类似于给这位雕塑家一个评分系统——评分高的作品会被鼓励评分低的会被纠正。这个评分系统可以是PickScore一个评判图片是否好看的AI评委或者HPSv2另一个人类偏好评分系统。问题就出在这里。强化学习确实能让AI图片的评分更高但图片的肉眼观感却常常变差了——颜色失真、光线不自然、细节丢失。这就像一个学生为了应付考试而死记答案成绩提高了但真正的理解力却没有增长。**二、一个被研究团队发现的隐藏信号**研究团队在分析这个问题时换了一个独特的观察角度。他们没有笼统地说模型被训练坏了而是去问强化学习训练到底在模型内部改变了什么他们发现了一个非常具体的信号经过强化学习训练之后模型在每一步雕刻过程中的速度velocity norm也就是速度场的大小都会比原始模型偏高偏高幅度在5%到15%之间而且这个现象在整个雕刻过程的每一步都存在相当均匀。在三种不同的强化学习训练方法NFT、AWM、DPO下这个现象都稳定出现。用一个更直观的比喻来说原始模型像一个稳健的雕刻师每一凿的力道都恰到好处而经过强化学习训练之后这位雕刻师每一凿都用力过猛了一点凿出来的图案棱角过硬、线条过深失去了原本的细腻感。这种速度偏大的现象有一个正式的名字叫做速度范数膨胀velocity norm inflation。研究团队注意到在AI绘图领域有一种叫做分类器自由引导Classifier-Free Guidance简称CFG的技术之前也被发现会产生类似的速度膨胀问题并且已经有人提出了一个简单的推理时修正方法在生成图片的过程中把速度的大小强行缩回到正常水平同时保持方向不变。**三、为什么推理时修正在这里行不通**研究团队自然想到既然CFG的速度膨胀可以通过推理时缩放来修正那强化学习导致的速度膨胀是否也可以用同样的方法解决他们进行了实验结果出乎意料——这个方法在强化学习的场景下完全没用。把速度缩回到参考水平后图片的评分没有提升图片质量反而出现了更多的锐化瑕疵和不自然的光线。这个区别其实不难理解。CFG的速度膨胀是一个外加的、实时的操作有点像在菜里临时多加了一勺盐——你直接把那勺盐拿掉就行了。但强化学习的速度膨胀是在漫长的训练过程中被烘焙进模型权重里的整个模型的各个部分都已经适应了这种偏大的速度这时候你再强行把速度缩小就像把一道已经做好的菜重新加水稀释——菜的结构已经变了你加水只会让它变得更难吃。这个发现非常关键它清楚地说明对于强化学习导致的速度膨胀必须在训练阶段就介入而不能等到生成图片的时候再补救。**四、速度膨胀和奖励之间其实关系不大**研究团队还追问了另一个关键问题如果在训练时压制速度膨胀会不会同时削弱模型从强化学习中获得的有用奖励信号换句话说速度偏大这件事是不是正好承载了让图片评分更高的信息为了回答这个问题他们用了一种叫做伴随灵敏度分析adjoint sensitivity analysis的数学工具。这个工具能计算出如果把速度统一放大一点图片的奖励评分会如何变化他们在超过6400个样本上进行了测算结果表明速度的统一缩放对奖励的影响非常杂乱。对于某些图片速度放大会让奖励略微上升对于另一些图片则会让奖励略微下降把所有图片的结果平均起来信号几乎为零噪音与信号的比值高达3倍到100倍。这意味着速度的大小也就是速度范数并不是奖励信息的主要载体。奖励信息主要存在于速度的方向之中而不是大小之中。就像一支乐队演奏音乐的节奏和旋律方向才是打动听众的关键而演奏的整体音量大小调高一点或调低一点对效果的影响可以忽略不计。正因如此在训练时专门压制速度的大小几乎不会干扰模型习得的有用奖励信号。这就从理论上确认了强制控制速度范数既必要又安全。**五、NormGuard一把只管用力过猛的刹车**基于以上两个发现——推理时修正失效速度范数不携带奖励信号——研究团队设计了NormGuard。NormGuard的原理非常简洁。在训练的每一步它都会比较当前模型的速度大小和原始参考模型的速度大小。如果当前模型的速度比参考模型大就对超出的部分施加一个惩罚如果当前模型的速度没有超出参考模型则完全不做任何干预。这种设计有个专业名字叫做铰链惩罚hinge penalty直观来说就像一扇单向阀门速度想变小随便速度想超过参考水平受到阻力。具体的数学表达是惩罚项等于λ乘以当前速度平方与参考速度平方之差再除以参考速度平方下限为零。其中λ是一个控制惩罚力度的参数整个工具只多出这一个需要调节的数字。NormGuard被直接叠加在原有的强化学习训练损失函数之上不需要替换任何已有的训练步骤。研究团队在论文中仔细分析了三种常用的强化学习训练方法——NFT、AWM和DPO——并证明这三种方法的梯度更新都具有一种共同的数学结构叫做速度局部损失而NormGuard恰好作用于同一个空间因此可以和这三种方法无缝组合。相比之下另一种叫做Flow-GRPO的方法在数学结构上与这三种不同梯度通过轨迹级别的概率比传播不直接适用NormGuard的框架研究团队明确将其排除在适用范围之外。**六、实验结果真的管用而且不止一点点**为了验证NormGuard的效果研究团队做了大量实验覆盖了两种基础模型SD3.5-Medium和FLUX.2-klein-base-4B、三种强化学习训练方法NFT、AWM、DPO和两种奖励评分系统PickScore和HPSv2总共七种不同的配置组合。在图像质量方面研究团队请了两位多模态大语言模型评委——Qwen3.5-35B和GPT-4.1——对使用NormGuard和不使用NormGuard生成的图片进行两两比较评判标准涵盖物理真实性、纹理细节、边界自然度、色彩一致性、语义合理性和瑕疵检测六个维度。结果显示在全部七种配置中两位评委都一致认为NormGuard的输出质量更好胜率大多在47%到73%之间而基准方法的胜率则在20%到46%之间。两位评委的判断方向完全一致这表明质量提升是真实的而非某个评委的偏好导致的。在图像真实感方面研究团队使用了一个叫做Forensic-Chat的AIGC检测工具这个工具能判断一张图片更像真实照片还是AI合成品给出一个真实感分数RealScore。在七种配置中NormGuard在六种配置下提升了真实感分数只有在AWM方法下出现了轻微的真实感分数下降但同时MLLM评委的质量评分有了更大的提升说明这两个维度并不完全一致。在奖励保留方面使用NormGuard之后PickScore的变化范围在-0.003到0.011之间HPSv2的变化范围在-0.004到0.001之间。换句话说强化学习辛苦得来的评分几乎完全保留没有被显著削弱。如果把各种配置在图表上标出来会看到一个有趣的规律加了NormGuard之后每个点几乎是垂直向上移动的——奖励评分基本不变但图像质量大幅提升。这正好印证了研究团队的判断速度范数膨胀携带的奖励信息很少压制它不会损失多少奖励却能大幅改善图像质量。**七、更少的推理步骤更明显的效果**研究团队还做了一个特别值得关注的实验把生成图片所用的步骤数从默认的28步减少到10步再减少到4步看看NormGuard的效果如何变化。结果表明步骤越少NormGuard的优势越明显。在28步时MLLM评委的胜率差距是9个百分点到4步时差距扩大到20个百分点。而基准方法在步骤减少时真实感分数从0.239急剧下降到0.189而NormGuard版本的真实感分数则相对稳定从0.274下降到0.221。这个现象背后有清晰的物理逻辑步骤越少每一步的跨度就越大速度偏大的影响也就越被放大。就像同样是用力过猛的一锤如果总共只有四锤每一锤都用力过猛的后果会比有二十八锤时严重得多。这也意味着NormGuard对于快速生成场景比如实时应用尤为有价值。**八、不是早停的功劳也不是KL正则的副本**研究团队还排除了两种可能的质疑。第一种质疑是NormGuard是否只是让训练慢了一点本质上和早停提前结束训练是一回事研究团队对比了基准方法在第160步、180步、200步的检查点与NormGuard在第200步的结果。结论是NormGuard在第200步的奖励评分、真实感分数和MLLM质量分数全都高于基准方法在任何一个早期检查点。因此NormGuard的效果无法用提前停止训练来复现。第二种质疑是已经有一种叫做KL正则的常规方法通过限制模型与原始模型的整体差距来防止过度优化NormGuard是否只是KL正则的重复研究团队的实验表明在有KL正则的情况下加入NormGuard真实感分数仍然进一步提升在没有KL正则的情况下NormGuard同样有效。两种方法针对的是不同的失效模式KL正则限制的是速度的整体偏移包括方向和大小而NormGuard只针对速度的大小超标部分不干涉方向的变化。两者可以叠加使用互相补充。说到底这项研究做的事情非常清晰它找到了AI绘图在强化学习训练过程中一个具体的、可测量的用力过猛信号证明这个信号是多余的、有害的然后设计了一个只针对这个信号的精准干预工具。从发现问题、诊断原因、证明安全性、设计方案到多维度验证效果整条研究链条环环相扣。归根结底这项工作告诉我们AI模型在被奖励驱动的过程中很可能悄悄做了一些并不有益的额外动作而这些额外动作往往可以被精准地识别和修正而不必粗暴地限制模型的整体学习。这个思路——把模型的变化分解成有用的部分和多余的部分然后只压制多余的部分——对未来的AI训练研究有着相当广泛的启发意义。对实际应用而言这意味着在不降低AI绘图好看程度的前提下生成的图片可以更自然、更真实、在步骤减少时更稳健。对于想深入了解技术细节的读者可以通过arXiv编号2606.27771查阅完整论文。---QAQ1NormGuard是什么能解决什么问题ANormGuard是一个在AI绘图模型强化学习训练阶段使用的正则化工具。它发现强化学习训练会让模型的速度场大小velocity norm普遍偏高5%到15%这种偏高会导致图片出现过度锐化、颜色失真、光线不自然等问题。NormGuard通过一个单向惩罚机制只要速度大小超过原始模型水平就施加约束从而在保留奖励评分的同时改善图像真实感。Q2为什么不能在生成图片的时候才修正速度膨胀问题而一定要在训练时处理A实验发现在推理阶段强行把速度大小缩回参考水平图片的奖励评分没有提升图像质量反而更差出现了更多锐化和光线失真问题。这是因为强化学习训练把速度膨胀烘焙进了模型权重整个模型已经适应了偏大的速度推理时强制缩减会破坏这种适应只有在训练阶段介入才能从根本上解决问题。Q3NormGuard会不会影响AI绘图模型通过强化学习获得的图像质量提升A实验数据表明影响极小。在PickScore上加入NormGuard前后的评分变化范围在-0.003到0.011之间在HPSv2上变化范围在-0.004到0.001之间。理论分析也证明速度大小并不是奖励信息的主要载体奖励主要由速度的方向变化承载因此限制速度大小不会系统性地削弱奖励信号。