【ACMMM 2025】VQA²: Visual Question Answering for Video Quality Assessment

📅 2026/7/6 3:28:24
【ACMMM 2025】VQA²: Visual Question Answering for Video Quality Assessment
note核心把传统的视频-质量分升级为视频-问多个质量问题-得到多维质量理解-输出质量分视频质量评估不只是回归一个分数而可以变成多模态问答任务。构建 VQA² Instruction Dataset。它是面向视频质量评估的视觉问答指令数据集包含约 15.8 万条视频质量相关问答数据覆盖 UGC 视频、流媒体视频、AIGC 视频等类型训练 VQA² 系列模型。模型不是只抽几帧看图而是把 视觉 token 和 运动 token 结合起来【visual tokens 主要补空间画质信息motion tokens 主要补时间/运动质量信息】空间质量清晰度、噪声、压缩块、色彩、细节时间质量卡顿、闪烁、运动模糊、时序不稳定、生成视频抖动文章目录note一、研究背景二、VQA²stage1失真识别stage2视频质量评分stage3质量理解/解释三、模型架构训练策略1、模型架构2、训练策略四、结果与分析五、评测指标1、最终指标2、评估维度Reference一、研究背景【ACMMM 2025】VQA²: Visual Question Answering for Video Quality Assessment开源代码https://github.com/q-future/visual-question-answering-for-video-quality-assessment研究问题这篇文章要解决的问题是如何利用视觉问答VQA技术来评估视频质量。传统的视频质量评估主要依赖于主观评分而近年来随着大型多模态模型LMMs的发展VQA在图像领域的应用已经显示出其在低层次视觉质量评估中的显著增强效果。然而视频领域尚未充分探索这一方向存在较大的改进空间。研究难点该问题的研究难点包括如何有效地将VQA应用于视频质量评估如何构建一个大规模且多样化的指令数据集来训练模型以及如何在视频质量评分和理解任务中实现高性能。相关工作该问题的研究相关工作包括经典的视频质量评估模型和数据集如知识驱动和数据驱动的方法以及基于LMMs的最新研究工作。此外低层次视觉问答领域也有相关研究但尚未有将VQA应用于视频质量评估的研究。二、VQA²这篇论文提出了VQA2指令数据集和一系列VQA2系列模型用于解决视频质量评估问题。1、数据集构建首先构建了VQA2指令数据集stage1失真识别阶段1基于失真识别的预训练数据集使用KonIQ-10K和KADID-10K数据集中的图像进行空间失真识别使用多个失真类型进行标注。失真类型“压缩伪影”、“空间模糊”、“运动模糊”、“噪声”、“过曝”、“欠曝”、“低对比度”、“高对比度”、“过度饱和”、“去饱和” 和 “块效应”论文用 KonIQ-10K、KADID-10K、LIVE-Qualcomm、LSVQ train 等数据来构造这一阶段数据stage2视频质量评分阶段2视频质量评分的指令数据集使用LSVQ(train)数据集进行离线用户生成内容UGC视频质量评分使用Waterloo-I、Waterloo-III和LIVE-NFLX-II数据集进行流媒体视频质量评分。论文把不同数据集里的 MOS 主观分统一归一化然后转成五档质量标签High / Good / Fair / Poor / LowUGC 视频主要用 LSVQ trainStreaming 视频用 Waterloo-I、Waterloo-III、LIVE-NFLX-II。Streaming 场景还会加入 stalling/rebuffering 信息也就是卡顿、缓冲等播放体验信息stage3质量理解/解释阶段3视频质量理解的指令数据集选择LSVQ(train)、LSVQ(1080p)、LIVE-VQC和AIGC视频数据集通过人类专家注释和GPT扩展生成问答对。数据来源包括 LSVQ train、LSVQ 1080p、LIVE-VQC、VideoFeedback 等三、模型架构训练策略1、模型架构提出了VQA2系列模型包括基础模型、运动提取器和运动投影器。基础模型使用LLaVA-OneVision-Chat-7B运动提取器使用SlowFast-R50确保运动token的数量与视频帧数一致。训练参数2、训练策略训练策略所有模型的训练均采用标准的文本生成任务损失函数如GPT-loss。预训练阶段阶段1的数据用于模型预训练阶段2和阶段3的数据用于微调。阶段做什么数据怎么来训练出什么能力Stage-1Distortion Recognition Pretraining失真识别预训练用 KonIQ-10K、KADID-10K、LIVE-Qualcomm、LSVQ train 等构造“这张图/这段视频有什么失真”的问答让模型认识模糊、噪声、过曝、欠曝、压缩块、闪烁、抖动、卡顿等质量问题Stage-2Quality Scoring Instruction Tuning视频质量打分指令微调用 LSVQ train 做 UGC 视频评分用 Waterloo-I、Waterloo-III、LIVE-NFLX-II 做 streaming 视频评分把 MOS 归一化后转成 High/Good/Fair/Poor/Low 五档• 再让模型学会“这个视频整体质量是 High / Good / Fair / Poor / Low” • 得到 VQA²-UGC-Scorer 和 VQA²-Streaming-Scorer专门负责视频质量评分Stage-3Quality Understanding Instruction Tuning质量理解/问答/解释微调用 LSVQ train、LSVQ-1080p、LIVE-VQC、VideoFeedback人工专家先写质量描述再用 GPT 扩展成问答得到 VQA²-Assistant能回答“哪里不好、为什么不好、哪段有问题、怎么改善”等问题数据收集从多个图像/视频数据集中收集了视频样本确保视频内容的多样性和质量变化。实验设置所有模型在各自的训练数据上训练一个epoch。系统提示在所有指令前添加评估时根据任务添加时间信息。样本选择选择不同类型的视频进行评估包括用户生成内容UGC、流媒体视频和人工智能生成的内容AIGC视频。参数配置使用Pearson线性相关系数PLCC和斯皮尔曼等级相关系数SRCC作为评估指标。四、结果与分析1、视频质量评分任务在四个开源UGC-VQA数据集上评估了VQA2-UGC-Scorer和VQA2-Assistant的性能结果显示这两个模型在大多数数据集和指标上表现最佳排名前三。VQA2-Assistant在评分任务中也表现出较强的性能验证了其多功能性。2、视频质量理解任务在Q-Bench-Video数据集上评估了VQA2-Assistant的性能结果显示该模型在技术质量和时间质量子维度上显著优于基模型分别提高了10.05%和10.64%。总体得分上也超过了GPT-4o。3、消融研究预训练的影响移除阶段1的数据后模型性能显著下降表明预训练阶段对训练过程至关重要。运动特征提取的影响移除运动提取器和投影器后模型在技术质量和时间质量子维度上的得分分别下降了2.87%和4.51%表明运动特征提取在评估时间质量时尤为重要。数据混合策略的影响混合策略在多个数据集上进一步提高了评分性能但在质量理解任务上表现较差可能是由于评分相关的指令较为简单阻碍了模型处理多样化问题的能力。五、评测指标1、最终指标批量评估指标对 N 条测试样本得p r e d ( p r e d m o s 5 ( 1 ) , . . . , p r e d m o s 5 ( N ) ) pred (pred_mos_5^{(1)}, ..., pred_mos_5^{(N)})pred(predm​os5(1)​,...,predm​os5(N)​)和g t ( g t ( 1 ) , . . . , g t ( N ) ) gt (gt^{(1)}, ..., gt^{(N)})gt(gt(1),...,gt(N))PLCCPearson Linear Correlation Coefficient皮尔森线性相关系数——衡量线性相关 标定PLCC ∑ i 1 N ( pred i − pred ‾ ) ( gt i − gt ‾ ) ∑ i 1 N ( pred i − pred ‾ ) 2 ⋅ ∑ i 1 N ( gt i − gt ‾ ) 2 \text{PLCC} \frac{\sum_{i1}^{N} (\text{pred}_i - \overline{\text{pred}})(\text{gt}_i - \overline{\text{gt}})} {\sqrt{\sum_{i1}^{N}(\text{pred}_i - \overline{\text{pred}})^2} \cdot \sqrt{\sum_{i1}^{N}(\text{gt}_i - \overline{\text{gt}})^2}}PLCC∑i1N​(predi​−pred​)2​⋅∑i1N​(gti​−gt​)2​∑i1N​(predi​−pred​)(gti​−gt​)​其中pred ‾ \overline{\text{pred}}pred​和gt ‾ \overline{\text{gt}}gt​为样本均值。PLCC ∈ [-1, 1]越接近 1 越好。要求预测值与真值不仅相关、还要数值贴近。SRCCSpearman Rank Correlation Coefficient斯皮尔曼秩相关系数——衡量单调排序SRCC 1 − 6 ∑ i 1 N d i 2 N ( N 2 − 1 ) , d i rank ( pred i ) − rank ( gt i ) \text{SRCC} 1 - \frac{6 \sum_{i1}^{N} d_i^2}{N(N^2 - 1)}, \quad d_i \text{rank}(\text{pred}_i) - \text{rank}(\text{gt}_i)SRCC1−N(N2−1)6∑i1N​di2​​,di​rank(predi​)−rank(gti​)rank(·) 是在各自数组里的名次。SRCC ∈ [-1, 1]越接近 1 越好。只关心相对排序是否一致对绝对数值偏移不敏感。选用建议PLCC 高 ⇒ 模型预测的 MOS 在数值上贴近 gt既包含相对顺序也包含绝对标定SRCC 高 ⇒ 模型对视频质量好坏的排序判断准确PLCC SRCC如我们 0.65 vs 0.73⇒ 模型排序对、但绝对数值有偏移典型表现预测整体偏高或偏低VQA 论文一般同时报告这两个指标KoNViD-1k / YouTube-UGC / LIVE-VQC 等基准都用此对。2、评估维度1、粗体字指标是必选项斜体字是可选项2、五种程度的具体描述Reference[1] VQA²: Visual Question Answering for Video Quality Assessment