主流图生视频模型训练数据集调研报告

📅 2026/6/26 1:21:56
主流图生视频模型训练数据集调研报告
模型总览与训练数据对比1.1 核心对比表模型开发者发布时间参数规模训练数据规模数据来源数据筛选方法字幕生成方法开源程度SVDStability AI2023.11~1.5BLVD: ~577M clips; LVD-F: ~144M clips网络视频多级场景分割 四维评分筛选(CLIP/美学/OCR/光流)CoCa V-BLIP LLM融合开源Wan 2.1阿里巴巴2025.021.3B / 14B~50亿图像 ~12亿视频片段(估计)大规模网络数据八维基本属性 视觉质量聚类 六级运动质量内部VLM密集字幕开源CogVideoX清华/智谱AI2024.082B / 5B~3500万视频片段 20亿图片LAION-5B COYO-700M六类负面标签过滤器 光流/美学评分CogVLM逐帧 → GPT-4/LLaMA2总结开源HunyuanVideo腾讯2024.12~13B数十亿图像-文本对 大规模视频未公开分层阈值筛选(256p→720p) 人工注释SFT结构化JSON字幕(7维度) 14类摄像机运动开源Gen-3 AlphaRunway2024.06未公开未公开YouTube 14个影视资源网站未公开未公开闭源Kling快手2024.06未公开未公开快手平台 AudioSetSNR/MOS/VAD CLAP一致性过滤音频分类 → 大模型融合字幕闭源Open-SoraHPC-AI Tech2024未公开Panda70M(~2100万) Pixart-Alpha(1100万)公开数据集五维评分过滤(美学/运动/模糊/OCR/抖动)LLaVA-Video(256p) Qwen2.5Max(768p) 运动分数开源2. Stable Video Diffusion (SVD)发布时间: 2023年11月开发者: Stability AI架构: Latent Video Diffusion Model论文: Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets (arXiv:2311.15127)数据集之前普遍用的是方法是2D 图像上去训练文生图模型然后插入时间序列层在小的高质量的视频数据集上进行微调。但是存在的问题1使用小视频数据集是不符合目前大数据的趋势的。2目前的视频数据集缺少一个统一的有效的策略去管理。作者本文针对这个问题提出一套比较流程化的有效的视频数据治理的手段。作者提出了一个三步走的步骤1text-to-image pretraining 文生图预训练实际上就是指我们目前已有的文生图的 stable diffusion base model。2video pretraining 文生视频预训练在大规模视频数据上去做预训练。视频预训练完成后能够得到在视频领域的一个很好的 base model这个 base model 会对视频的一些特征具有很好的表征而且对视频文本特征之间的对应关系会有一些认识具有了一些基础的能力。3high-qualtity video finetuning 高质量视频微调base model 有基础能力之后就要把 base model 去应用到各种具体的下游任务中。如果想要做文生视频那么就整理一个文本和视频对的数据集去继续 finetuning 之前视频预训练得到的 base model从而得到一个文生视频的模型。如果想要做图生视频那么就把图像作为控制条件继续 finetuning base model从而得到一个图生视频的模型。如果想控制视频生成的运镜那么就通过 camera motion-specific Lora 的方式在 base model 上 finetuning 出 Lora 来控制视频生成的视角。如果想做多视图的生成就用多视图的数据finetuning base model从而得到一个多视图生成的模型。所以第二步算是一个关键通过大量的数据做视频的预训练这样能让模型具有一个基础的能力。有了这个基础能力之后对于具体的下游任务再去做特异化的 finetuning这样就能得到各种各样的产出而且这些产出的模型在各自的领域都达到了 SOTA 的一个效果其实这也是大数据所带来的一个的优势体现。LVD首先作者是讲了他们的初始数据集的收集称为LVD (large video dataset)包含将近 600M 个视频片段。这个数据集怎么来的最初始去各处去搜集一些没有任何处理的原始数据然后要经过一些过程来得到处理后的 LVD 数据集。首先是 cut detection。什么叫 cut detection这里的 cut 是指生成的视频一般都是连续的可能中间不存在转换比如说突然换一个场景或者说有非常大的变动这种其实是要分割成两段视频去做训练的这样才有利于生成比较一致的视频。所以第一步就是检测这些视频中的cut把它切成更细的clips。关于 cut detection作者对一个基础的 pipeline 还做了一些改进。基础的 pipeline 就是一个视频每连续两帧之间它变化的一个幅度如果变化幅度很大它就认为这里是一个分界线要把它切成两段。但是作者认为这种情况只能去检测出那种瞬间变化的那种场景切换如果是那种渐变效果是检测不出来的。因此作者将这个检测方法做了一下改进改进之后就是一个多级的边界检测apply a cut detection pipeline in a cascaded manner at three different FPS levels。之前可能是连续两帧之间看它变化多大现在每隔几帧去看一下它之间的变化大不大。有不同的间隔模式有可能每隔 5 帧去看一下然后再隔个 10 帧去看一下它之间的变化大不大。类似于这样的一个多级的方式去检测是否存在一些边界。作者把视频分成更细的片段之后用三种不同的方法给这些视频打上文本标注three different synthetic captioning methods。image captioner CoCa基于图像的取视频中的一个中间帧用图像打标的方式去给这个视频添加描述。V-BLIP一种基于整个视频的打标算法考虑视频全局。基于大语言模型 LLM-based把前两种打标的结果去进行一个综合。这样每个视频就会有三个标注经过这两步之后作者就收集了他们的 large video datasets包含了 577 百万的 clips一共是 212 年的视频时间长度。LVD-F在形成 LVD 之后作者经过一些实验发现这个数据集可能还并不是最佳的需要对这个数据集做进一步的清洗让这个数据集更质量更高这样训练出来的这个视频生成模型才会更好。作者接下来就进行了第二个大的步骤得到一个更小的叫做 LVD-F。LVD-F 的数据量差不多是 LVD 的 1/4 左右。这里采取了什么措施作者去通过四个角度去计算了每个视频文本对之间的四个评分分别是:CLIP score是计算视频和它的标注之间的一个匹配程度。aesthetic score评判视频本身的美观程度。OCR detection scoreOCR(optical character recognition) 检测每个视频中文字所占区域的面积大小剔除包含大量书面文字的clips。optic flow score检测光流如果两帧之间的变化越大这个光流得分也会越高用于检测视频的运动变化大小。得到每个视频的四个指标之后通过这四个指标去筛选 LVD 数据集让它更小一点更精细一点。那怎么去筛呢很难人为去定义一个阈值说 CLIP score 高于多少分我认为是 OK 的就把它拿进来这个阈值是多少是需要通过实验去验证的那怎么去做实验呢在附录 E2.2 详细说明怎么去定这个threshold。举例来说首先看这个 aesthetic threshold 的阈值怎么选取为了实验的便捷首先作者先做一个 random simple将原来 600 百万的 LVD 数据集缩小到十百万这样验证的速度会更快因为作者只是为了得到一个阈值并不是为了训练一个非常好的模型那为了得到阈值它就在一个小一点的数据集上去做实验。然后怎么去做实验就是在这个小的数据集的基础上去建立 4 个不同大小的数据。怎么去建立 4 个大小不同数据蓝色表示保持 LVD-10M 这个数据集不变橙色表示将 aesthetic score 低于 0.125 的那部分数据丢掉只使用剩下的一些部分。依此类推这样就构成了四个不同大小的子集然后在这四个不同大小子集上去 finetuning 模型然后去生成视频让人去给这四个模型生成的视频打分。这里有三个指标一个是 prompt alignment指看四个模型之间文本和视频的匹配程度。第二个 Quality指视频本身的质量。第三个 Aggregated指综合前两项的综合得分。分数越高说明取这个阈值越好。这里绿色柱子综合得分最高绿色对应的是0.25所以作者选择的 threshold 就是0.25即把 aesthetic score 低于 0.25 的那些视频都从 LVD 数据集里去删掉这就是作者所说的数据治理那其他的指标也是以此类推。比如 clip score 最好的指标是0.5也就是 clip score 低于 0.5 的那些视频都丢掉最后把这些所有视频取一个交集就是说每一个指标都会丢掉一部分数据然后最后取一个所有指标的一个交集这样就得到最终的 LVD-F 数据集就是作者治理之后的数据集。第2幅图的 Motion 指之前说的那个光流根据光流做筛选。第1幅图中的 caption strategy 不是筛选指标而是对比不同的打标方式所带来的模型效果的影响但是作者认为现在一个通常的训练方式都是用尽可能不一样的 caption 去训练模型也就是说一个视频可能会对应多个caption这个是合理的即蓝色的 Coca 这种打标方式效果是最好的。作者去调配了这三种不同的打标在训练过程中所可能出现的概率50% 的情况下是 Coca 打的标签去作为数据的输入25% 的和另外 25% 的情况是另外两种打标方式作为模型标签的输入。3. Wan3.1 模型概述发布时间: 2025年2月开发者: 阿里巴巴Wan团队架构: Diffusion Transformer (DiT)参数规模: 1.3B轻量版和14B完整版论文: Wan: Open and Advanced Large-Scale Video Generative Models (arXiv:2503.20314)3.2 训练数据Wan2.1的整体数据是这样构建的。预训练数据主要从三个维度进行清洗和挑选包括基本维度、视觉质量、动作质量。基本属性光基本维度包含了大概八个方向确实很细节1文本覆盖率轻量OCR检测视频和图像的文本覆盖率排除含有过多文字的视频和图像2美学得分LAION-5B分类器过滤掉低分数据3安全分数通过训练一个安全评估模型来计算NSFW分数去过滤掉不当内容4水印、黑边裁剪5过曝利用过曝和不过曝的数据过滤掉过曝的视频和图像6合成图像/视频过滤通过训练一个合成内容检测器去过滤合成的视频和图像7模糊检测训练一个模型对样本进行量化模糊评分去除视觉模糊内容8时长过滤时长低于4s的内容视觉质量通过聚类划分100个子集每个子集随机采样数据并且进行人工的打分根据视觉质量打分1-5分然后用这些采样数据对整个数据进行打分。运动质量一共六个运动质量等级5-6的数据是完全排除4优先级低3需降低采样率1-2保留1最佳运动极佳的运动布局、视角和振幅以及干净、流畅的运动或动作2中等运动明显的运动但可能存在一些小问题如多主体或部分遮挡3聊天和访谈类视频运动信息极少但质量很高。 需要单独识别这些视频并降低其采样率4镜头驱动的运动 以摄像机运动为主如航拍主体运动极少与静态图像相似这些图像的采样优先级要低得多5低质量运动主体过多、严重遮挡或主体不清晰的视频如拥挤的街景6摇晃的摄像机镜头 摄影机明显晃动的业余录像、通常会造成运动模糊和模糊的前景-背景区分。额外处理步骤在纯白背景上渲染汉字合成了数以百万计的含文字图像收集了大量包含文本的图像。 采用多种 OCR 模型来准确识别图像和视频中的中英文文本。然后将这些提取的文本内容输入Qwen2-VL生成图像的自然描述确保尽可能包含精确的文本内容。预训练阶段整合合成数据和真实数据可以有效地生成视频中的罕见词汇。Post-training的数据在Pre-training的数据上进一步进行了细化。整个过程包含了人工和模型的共同的处理。图像数据首先根据专家模型预测的分数选出前20%的图像除此之外还考虑了风格和类别等因素以确保数据分布的多样性。然后是人工从不同类别和数据源中收集高质量数据报告写的数百万工作量还是很巨大的。视频数据采用与图像处理类似的策略来收集首先使用视觉质量分类器从候选数据集中筛选出一些排名靠前的视频然后还会根据运动质量分类器选择数百万个以简单动作为特征的视频和以复杂动作为特征的视频所有视频的选择都遵循强调类别平衡和高度多样性的策略。 同时从 12 个主要类别中选择数据科技、动物、艺术、人类、车辆以增强模型对常用类别的生成能力。密集video-caption收集过程 这个过程主要是根据原始的caption对这个caption进行扩充或者重写。wan2.1用了一个内部模型为数据集中的每张图片和视频生成密集的字幕。这个模型的训练用了各种开源视觉语言数据集和额外收集的数据。这一步非常重要很大程度决定了模型的指令遵循的能力开源dataset处理过程这部分数据集不仅包括标题数据集还包括侧重于视觉内容的视觉问答数据集