当前位置: 首页> 汽车> 行情 > 微软 Florence-2:多功能视觉模型

微软 Florence-2:多功能视觉模型

时间:2025/7/12 13:59:57来源:https://blog.csdn.net/weixin_51674085/article/details/139850779 浏览次数: 0次

微软开发的 Florence-2 系列模型,使用提示(prompt-based approach)来处理不同的视觉任务。

通过改变提示,模型可以执行不同的任务,例如:

  • 描述(Caption)
  • 详细描述(Detailed Caption)
  • 更详细描述(More Detailed Caption)
  • 描述到短语定位(Caption to Phrase Grounding)
  • 目标检测(Object Detection)
  • 密集区域描述(Dense Region Caption)
  • 区域提议(Region proposal)
  • 光学字符识别(OCR)
  • 带区域的 OCR(OCR with Region)

可以在 HF Space 上免费使用, 也有一个非官方的 ComfyUI 节点实现

关键字:微软 Florence-2:多功能视觉模型

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: