当前位置: 首页> 科技> 名企 > 多模态大模型SFT数据处理

多模态大模型SFT数据处理

时间:2025/9/11 4:51:17来源:https://blog.csdn.net/qq_43814415/article/details/141162968 浏览次数:4次

多模态数据处理:
数据质量、数据数量、数据分布和数据安全
论文:https://arxiv.org/pdf/2407.19180

数据质量

1.过滤

1.图片过滤:图片过滤器在扩散模型最为常见。
图片属性过滤:分辨率;宽高比。
高级过滤:人工标注选择;模型引导过滤:小模型对图片打分。
来源过滤:根据数据源,如微博可以根据点赞转发数等过滤。

2.文本过滤
标注者引导过滤:人工选择。
模型引导过滤:ChatGPT,或自己训练小模型。

3.图文对齐过滤
CLIP相似度分数。

2.数据增强

使用预训练模型,如ChatGPT生成。

2.数据分布

目标是获得一个均衡且多样化的数据集。

1.图像导向平衡:图像分类模型对其分类;图像去重
2.文本导向平衡:排除罕见的名词短语,删除过于常见的名词短语(如llava罕见为3,过于常见是100次)

3.数据安全

包含 数据毒性和数据偏见。前者是NSFW,偏见是数据中的社会偏见或刻板印象。

1.有毒数据
文本:https://blog.csdn.net/PolarisRisingWar/article/details/130349309
图像:CLIP embeddings 比较图片和毒性文本的相似度。
2.偏见数据
反事实数据增强(CAD)是一种用于平衡文本数据中表示偏差的常见技术。
https://aclanthology.org/2022.naacl-main.347/

合成VQA数据的数据处理

1.设计promot,任务导向,few shot
2.使用ChatGPT生成实例,维护一个任务池,每当有新实例时就把实例与任务池中的所有数据计算ROUGE-L,小于0.7再添加进任务池
3.对任务池的数据去重
4.计算整体数据的slef-bleu,观察整体的多样性情况
5.计算每条实例的distinct值,观察每条实例的多样性。过滤,然后回到4.
6.描述性统计分析,聚类图展示

关键字:多模态大模型SFT数据处理

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: