YOLOv10模型改进-卷积层改进-第29篇:YOLOv10改进策略【卷积层】| CrossViT交叉视觉Transformer

📅 2026/7/2 8:29:24
YOLOv10模型改进-卷积层改进-第29篇:YOLOv10改进策略【卷积层】| CrossViT交叉视觉Transformer
一、本文介绍本文记录的是利用CrossViT(Cross Vision Transformer)改进YOLOv10的特征提取部分。CrossViT通过交叉注意力机制融合不同尺度特征,实现高效的特征提取。二、CrossViT模块介绍2.1 设计出发点传统ViT缺乏多尺度交互能力,CrossViT通过交叉注意力机制实现不同分辨率特征的融合。2.2 模块结构CrossViT块:双分辨率分支:高分辨率和低分辨率分支交叉注意力:分支间信息交互特征融合:融合不同分支的特征三、CrossViT的实现代码importtorchimporttorch.nnasnnclass