Ultralytics YOLO26:统一实时端到端视觉模型,精度 - 延迟权衡超越前代

📅 2026/6/24 2:15:34
Ultralytics YOLO26:统一实时端到端视觉模型,精度 - 延迟权衡超越前代
arXiv相关信息可了解arXiv成为独立非营利组织的相关情况同时衷心感谢西蒙斯基金会、会员机构以及所有贡献者的支持也可进行捐赠。还有计算机科学相关的搜索选项所有字段包括标题、作者等。快速链接提供了登录、帮助页面、关于等快速链接。计算机科学论文详情在计算机科学的计算机视觉与模式识别领域有一篇arXiv:2606.03748的论文。该论文于2026年6月2日提交标题为“Ultralytics YOLO26统一的实时端到端视觉模型”作者有Glenn Jocher、Jing Qiu、Mengyu Liu、Shuai Lyu、Fatih Cagatay Akyon、Muhammet Esat Kalfaoglu。可查看该论文的PDF版本、HTML实验版。论文摘要实时视觉要求模型准确、高效且能在不同硬件上轻松部署因此YOLO系列模型广泛应用。但大多数YOLO检测器存在依赖非极大值抑制NMS、检测头复杂、训练周期长等问题。为此推出了Ultralytics YOLO26它是统一的实时视觉模型系列通过协调架构和训练方面的改进解决了这些问题。采用双头部设计实现原生无NMS的端到端推理去除了DFL得到更轻量级检测头且回归范围不受限制。训练流程结合了MuSGD、渐进式损失和STAL。除目标检测外还为实例分割、姿态估计和定向检测引入特定任务的检测头和损失设计在不同任务和尺度上取得显著性能提升。该系列涵盖五种尺度n/s/m/l/x支持多种检测还有开放词汇扩展版本YOLOE - 26可实现无文本、无视觉和无提示的推理。在所有尺度上YOLO26在COCO数据集上的平均精度均值mAP达到40.9 - 57.5T4 TensorRT延迟为1.7 - 11.8毫秒在精度 - 延迟权衡方面超越了之前的实时检测器而YOLOE - 26x在文本提示下的LVIS minival数据集上的平均精度AP达到40.6。代码和模型可获取。论文评论及相关信息论文有31页8幅图主题涉及计算机视觉与模式识别、人工智能还说明了引用方式。提交历史来自Glenn Jocher于2026年6月2日周二15:01:13 UTC提交文件大小8,589 KB。全文链接可查看论文的PDF版本、HTML实验版、TeX源代码还可查看许可。当前浏览上下文处于计算机视觉与模式识别领域有上一篇、下一篇的浏览选项还有最新论文、近期论文等浏览方式也可切换浏览方式。参考文献与引用提供了NASA ADS、谷歌学术、语义学术等参考文献与引用途径还可导出BibTeX引用。书签可在BibSonomy、Reddit上添加书签。文献工具包括文献与引用工具如文献浏览器、关联论文等代码、数据和媒体相关工具如alphaXiv、代码链接等演示项目工具如Replicate、Spaces等相关论文推荐器与搜索工具如影响力花图、CORE推荐器等。关于arXivLabsarXivLabs是允许合作伙伴直接在网站上开发和分享新的arXiv功能的框架。与arXivLabs合作的个人和组织需认同并接受开放、社区、卓越和用户数据隐私价值观arXiv只与遵循这些价值观的合作伙伴合作。若有能为arXiv社区增值的项目想法可了解更多关于arXivLabs的信息。还提供了关于、帮助、联系arXiv、订阅arXiv邮件列表、版权、隐私政策、网络无障碍协助、arXiv运行状态等相关信息。