一文读懂SAM 2图像分割大模型的核心基础知识 📅 2026/6/15 21:54:02 写在前面欢迎大家关注Rocky的知乎Rocky DingAIGC算法工程师/开发工程师面试面经秘籍分享WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家StarAIGC时代的《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源【三年面试五年模拟】AI算法工程师面试秘籍Rocky最新撰写AI AgentAI智能体的深入浅出全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识大家好我是Rocky。核心导读SAM 2 这篇论文真正值得读的地方并不只是“Meta 把 SAM 从图片扩展到了视频”而是它把视觉分割这件事从一次性的静态预测推进成了一个带记忆、可交互、可持续修正的视频感知系统。Rocky 认为SAM 2 的本质不是“SAM Tracker”的工程拼接而是重新定义了一个更大的问题Promptable Visual Segmentation简称 PVS。在这个问题里用户可以在任意视频帧上给点、框或 mask模型不仅要立刻回应当前帧还要把这个对象在时间维度上的完整轨迹也就是论文里的 masklet稳定地传播到整段视频里。后续用户再补一个点击系统要能基于已有记忆修正整条 masklet而不是从头再跑一次分割和跟踪。这句话听起来像产品交互背后其实是研究范式变化。SAM 1 解决的是“我点一下模型在这张图里分出一个对象”SAM 2 要解决的是“我在时间中指出一个对象系统要在运动、遮挡、变形、消失、重现中持续理解它”。这就是它比一般视频跟踪模型更重要的地方它不是只优化一个 benchmark而是在把分割能力改造成多模态交互系统里的基础操作。从论文证据看SAM 2 的主线由三件事组成任务层从静态 Segment Anything 扩展到视频里的 Promptable Visual Segmentation把 SA 和半监督 VOS 都看成 PVS 的特例。模型层用 streaming memory architecture 让视频逐帧处理同时通过 memory attention、memory encoder、memory bank 和 object pointer 保存对象上下文。数据层用 SAM 2 自己进入数据引擎和人工标注形成闭环构建 SA-V50.9K 视频、642.6K masklets、35.5M masks、196 小时视频。论文给出的核心结果也很清晰视频分割里SAM 2 在交互式设置下用超过 3 倍更少的交互达到更好精度图像分割里在相近或更高精度下比 SAM 快 6 倍在 VOS、交互式视频分割和图像 SA 任务上都呈现较强 zero-shot 表现。但 Rocky 更关心的是另一层SAM 2 展示了视觉基础模型的一个长期方向即模型不只是“看见一帧”而是开始把用户意图、历史预测、对象状态和数据闭环组织成一个可交互的时序系统。这对视频编辑、机器人、自动驾驶、AR/VR、数据标注和未来世界模型都更有跨周期意义。问题背景作者到底想解决什么SAM 1 的成功来自一个非常清晰的抽象用户用点、框、mask 之类的 prompt 指定对象模型输出图像里的有效分割。这个抽象非常强因为它不要求用户提前定义类别也不要求模型只在固定语义集合里工作。它更像一个视觉版的“指哪分哪”基础能力。但图像只是现实世界的一帧切片。真正的物体会运动、遮挡、变形、离开画面、重新出现视频里还会有模糊、低分辨率、镜头运动、光照变化。传统 VOS 或 tracker 可以追踪对象但它们通常依赖第一帧高质量 mask或者把交互分割和视频传播拆成两个模块先用 SAM 在某一帧分出 mask再交给 XMem、Cutie 之类模型跟踪。这个路线的问题是一旦中途错了用户往往要在新帧重新分割再重新启动跟踪。系统没有真正的“交互记忆”。SAM 2 重新定义的 PVS 任务解决的正是这个断裂。图 2 里的例子很典型。用户一开始用点击选中狗的舌头SAM 2 把这个对象传播到后续帧。如果模型在中间丢失目标用户只需要在新的帧上再点一下模型就能利用已有记忆恢复整条 masklet。相比“图像分割器 视频跟踪器”的方案SAM 2 的关键差异是后续提示不是一次新的任务启动而是对同一个时序对象记忆的更新。这也是这篇论文的第一个本质判断视频分割的难点不只是空间像素边界而是对象身份在时间中的连续性。如果一个系统没有记忆它就很难把“这一帧的一个局部点击”理解成“同一个对象在整段视频中的状态修正”。核心思路用 streaming memory 把交互分割推进到视频SAM 2 的模型结构看起来并不复杂甚至论文强调它是一个 simple transformer architecture with streaming memory。但简单不等于浅。它真正做对的是把“视频”拆成了可以实时处理的流式过程又给这个过程加入对象级记忆。从机制上看SAM 2 的一次视频推理可以拆成五步Image encoder对每一帧只编码一次生成该帧的无条件视觉特征。Memory attention把当前帧特征与过去帧的 memory、prompted frames 的 memory、object pointers 做 cross-attention。Prompt encoder mask decoder接收点、框、mask 等提示输出当前帧 mask、多候选 mask、IoU 估计和 occlusion score。Memory encoder把当前预测 mask 与图像特征融合形成新的 memory。Memory bank用 FIFO 队列保存最近帧 memory、提示帧 memory以及轻量 object pointer。这里最重要的是 memory attention。它让当前帧的分割不再只依赖当前图像而是依赖“这个对象过去是什么样、用户在哪些帧提示过、模型曾经如何预测、对象是否可能被遮挡”。当用户在未来帧补充 prompt 时模型也可以把这个未来信息作为 prompted frame memory 反向帮助其他帧的修正。Rocky 认为这个设计的产业含义很强真正可用的视频 AI不会只是逐帧调用一个强图像模型而要有状态、有记忆、有纠错入口。视频编辑、机器人操作、自动驾驶场景理解本质上都不是单帧识别问题而是“在时间中持续维护对象状态”的问题。方法展开沿着论文原始逻辑拆解PVS把 SA 和 VOS 统一成更大的任务论文在附录里把 Promptable Visual Segmentation 画成一个任务关系图Segment Anything 是单帧特例半监督 VOS 是第一帧给 mask 的特例PVS 则允许用户在任意帧、以任意 prompt 类型定义或修正对象。这个定义的价值在于它不是为了论文好看而造一个新名词而是把三类原本分散的能力放进同一个接口任务输入输出局限Segment Anything单张图像上的点、框或 mask单帧分割 mask没有时间维度Semi-supervised VOS第一帧高质量 mask后续帧对象轨迹初始 mask 获取成本高交互修正弱PVS任意帧上的点、框或 mask可多轮修正全视频 masklet更接近真实交互但要求模型有记忆PVS 的关键不是“能不能跟踪”而是“能不能把交互变成连续对象状态更新”。这也是 SAM 2 相比拼接式系统更优雅的地方。Mask decoder继承 SAM但为视频增加可见性与对象指针SAM 2 的 mask decoder 大体继承 SAM 的设计prompt token 和 image token 经过 two-way transformer 交互输出多个候选 mask 和 IoU 估计。不同的是视频任务要求它额外处理两个问题。第一目标对象可能在某些帧不存在。SAM 1 里只要有正点击通常默认存在一个有效对象但视频中对象可能被遮挡或离开画面。所以 SAM 2 加入 occlusion prediction head用来判断当前帧目标是否可见。第二视频里对象身份需要跨帧维持。SAM 2 使用 mask decoder 输出 token 作为 object pointer把它当成轻量对象语义向量存入 memory bank供后续 memory attention 使用。这一步很容易被忽略但它其实是 SAM 2 “从分割器变成时序系统”的关键。空间 memory 保存的是对象在某些帧上的像素与特征状态object pointer 保存的是更高层的对象身份信息。一个负责“在哪里”一个负责“是谁”。视频分割如果只靠前者会更容易在相似目标、遮挡、局部变形里漂移。训练不是只训模型而是在模拟真实交互SAM 2 的训练不是简单拿视频 masklet 做监督。它模拟用户交互过程采样 8 帧序列随机选择最多 2 帧作为 prompt frame初始 prompt 可以是 ground-truth mask、正点击或 box然后根据模型预测与 ground truth 的误差采样 corrective clicks。训练目标不是一次性预测某一帧而是顺序地、交互式地恢复整条 masklet。论文还做了 16 帧序列的微调专门针对更困难、更长的视频场景。为了适配 80GB A100 显存微调时冻结 image encoder只训练后续模块。这说明 SAM 2 的视频能力不是单靠“大模型吞一切”得到的而是围绕交互、长时序、遮挡和难例构造了训练过程。表 12 给出的训练细节可以概括为训练阶段数据与目标关键设置Rocky 解读预训练SA-1B 静态图像1024 分辨率、AdamW、bfloat16、focaldice mask loss、IoU L1 loss保留 SAM 式图像分割能力同时换成更高效的 Hiera 编码器全量训练SA-1B、SA-V、Internal以及可选 DAVIS/MOSE/YouTubeVOS图像/视频交替采样视频 8 帧序列最多 3 个 masklets模拟 corrective clicks把图像能力和视频交互能力放进同一个模型16 帧微调最难的高编辑量视频 masklets冻结 image encoder降低学习率训练 50k iterations用难例强化长视频与遮挡恢复真正有价值的地方在于训练过程不是复刻 benchmark而是复刻用户如何修正模型。这是很多 AI 产品从 demo 到可用系统必须跨过的一道坎。数据引擎SAM 2 真正的护城河不只是模型而是数据闭环如果只读模型结构SAM 2 可能像一个带 memory 的视频分割网络。但读到 Data Engine 部分才会看到它更完整的系统性。论文的数据引擎分三阶段阶段工具链每帧标注时间Edited FramesClicks per Clicked Frame关键变化Phase 1SAM only37.8s100.00%4.80每帧都要从头标质量高但很慢Phase 2SAM SAM 2 Mask7.4s23.25%3.61先用 mask prompt 传播效率提升Phase 3SAM 24.5s19.04%2.68通过记忆与点击修正效率最高表 1 里最值得注意的是Phase 3 相比 Phase 1 快 8.4 倍同时在 Phase 1 Mask Alignment Score 上并没有明显牺牲质量整体 alignment 还达到 89.1%。这说明 SAM 2 不只是模型结果更好它改变了数据生产的成本结构。另一个关键表是表 2。它控制训练 iterations 不变只看逐阶段加入数据带来的收益Training dataSA-V val9 zero-shotVOS SA-1B50.062.5 Phase 153.066.9 Phase 258.870.9 Phase 362.571.2 Auto63.271.5这个表说明数据引擎不是论文包装而是性能来源。尤其 SA-V val 从 50.0 提升到 63.2说明模型需要的不只是已有 VOS 数据集而是更接近“segment anything in videos”的多样对象、部件、遮挡和难例。SA-V 的规模也非常关键数据集VideosDurationMaskletsMasksFramesDisappearance RateDAVIS 20170.2K0.1 hr0.4K27.1K10.7K16.1%YouTube-VOS4.5K5.6 hr8.6K197.3K123.3K13.0%UVO-dense1.0K0.9 hr10.2K667.1K68.3K9.2%BURST2.9K28.9 hr16.1K600.2K195.7K37.7%MOSE2.1K7.4 hr5.2K431.7K638.8K41.5%SA-V Manual50.9K196.0 hr190.9K10.0M4.2M42.5%SA-V ManualAuto50.9K196.0 hr642.6K35.5M4.2M27.7%论文强调 SA-V ManualAuto 有 35.5M masks是已有公开视频分割数据集中最大者的 53 倍。这里不能只看“大”更要看数据分布SA-V 包含大量小目标、部件、遮挡后重现对象这些正是传统 VOS 数据集覆盖不足的区域。图 9 展示了 automatic masklets 的意义。人工标注容易偏向显著对象而自动 masklet 可以覆盖背景、小物体、局部结构也可以暴露模型失败案例再交给人工修正。Rocky 认为这就是基础模型时代的数据飞轮模型先帮助人降低标注成本再用人修正模型的失败边界最后把难例重新喂回模型。图 10 进一步说明 SA-V 的分布特点视频来自 47 个国家超过 88% 的 SA-V masks 归一化面积小于 0.1数据还记录了采集者的自报 demographic 信息。论文也做了 fairness evaluation。表 13 显示在 3-click 和 mask prompt 下不同性别与年龄组的 JF 差异较小1-click 下存在更明显差异论文解释为单击 prompt 的目标歧义会让模型分到人体局部而不是整个人。组别1-click3-clickmaskmale81.995.195.9female75.194.195.218-2677.295.095.726-5076.794.795.85081.495.196.2这里 Rocky 的判断是公平性结论不能过度外推。论文是在特定人群类别、特定数据与 prompt 设置下做的评估它能说明 SAM 2 在这组实验里没有暴露大规模差异但不能替代各行业落地时的场景化评估。图 11 展示了数据引擎里选择、追踪、验证三类 annotator 的分工。对产业落地来说这张图的价值甚至不低于模型架构图它告诉我们基础模型不是自动消灭人工而是重构人工参与的位置。人不再逐帧画 mask而是选择难例、纠正失败、验证质量。实验与证据结果能支撑到什么程度交互式视频分割SAM 2 的强项在少交互高收益论文先评估 promptable video segmentation分为 offline 和 online 两种设置。Offline 可以多次遍历视频选择误差最大的帧交互online 只前向走一遍视频遇到低质量帧再补 prompt。两者分别对应更精修和更实时的用户体验。图 5 的结论很直接SAM 2 在 9 个 densely annotated zero-shot video datasets 上都优于 SAMXMem 和 SAMCutie。论文说 SAM 2 可以用超过 3 倍更少的交互达到更好准确率这不是小数点级优化而是交互成本结构变化。更细粒度的 per-dataset 结果在附录 Figure 12 和 Figure 13 中给出。Offline 设置下SAM 2 在 9 个数据集上平均 JF 为 80.3SAMXMem 为 71.7SAMCutie 为 74.7。尤其在 VOST、PUMaVOS、LVOSv2 这种更强调变形、部件或长时序的场景里记忆式统一模型的优势更明显。Online 设置下SAM 2 平均 JF 为 79.8仍然高于 SAMXMem 的 72.8 和 SAMCutie 的 74.0。这里最有产品意义的是 online因为它更接近真实视频编辑、机器人监控、流式交互里的使用状态系统不能等你离线反复扫完整段视频而要在前向处理时持续修正。半监督 VOS即使在传统任务里也明显强为了和传统视频分割方法对齐论文也做了半监督 VOS 评估即只在第一帧给 click、box 或 ground-truth mask然后看后续视频分割效果。Method1-click3-click5-clickbounding boxground-truth maskSAMXMem56.968.470.667.672.7SAMCutie56.770.172.269.474.1SAM 264.775.377.674.479.3表 4 的信息量很大。SAM 2 不仅在 click prompt 下更强在 ground-truth mask 这种最适合传统 VOS 方法的设置下也达到 79.3高于 SAMCutie 的 74.1。这说明 SAM 2 不是牺牲传统 VOS 换交互能力而是在更一般的 PVS 框架下兼容了 VOS。图 14 把 17 个视频数据集按不同 prompt 类型展开。Rocky 认为这里最该看的不是某个单点最高分而是曲线形态随着 prompt 从 1-click 到 5-click、box、mask 变强SAM 2 的优势保持稳定。这说明它的收益不只来自某种 prompt trick而是来自统一的对象记忆机制。图像分割SAM 2 不是视频专用模型而是更高效的统一模型SAM 2 在图像任务上也没有退化。论文在 37 个 zero-shot datasets 上评估 Segment Anything 任务表 5 给出主结果ModelDataSA-23 AllSA-23 ImageSA-23 Video14 new VideoFPSSAMSA-1B58.1 (81.3)60.8 (82.1)54.5 (80.3)59.1 (83.4)21.7SAM 2SA-1B58.9 (81.7)60.8 (82.1)56.4 (81.2)56.6 (83.7)130.1SAM 2our mix61.9 (83.5)63.3 (83.8)60.1 (83.2)69.6 (85.8)130.1括号里是 5-click mIoU前面的数值是 1-click mIoU。单看 SA-1B 训练SAM 2 已经在 1-click 上略高于 SAM同时 FPS 从 21.7 到 130.1约 6 倍速度提升。加入图像视频混合数据后SA-23 All 提升到 61.914 new Video 提升到 69.6。图 15 说明SAM 2 的图像收益尤其集中在来自视频分布的数据上比如医学、运动、长视频、开放世界对象。这不意外SAM 2 的训练让模型见过更多视频帧分布、模糊、遮挡和小目标它反过来提升了模型在“像视频帧一样的图片”上的表现。SOTA VOS强 benchmark 不是终点但能证明底座够硬论文也和已有 VOS 方法比较。表 6 的主结果如下MethodMOSE valDAVIS17 valLVOS valSA-V valSA-V testYTVOS19 valXMem59.686.0-60.162.385.6DEVA66.087.055.955.456.285.4Cutie-base71.788.1-61.362.887.5SAM 2 (Hiera-B)76.690.278.076.877.088.6SAM 2 (Hiera-L)77.990.778.077.978.489.3SAM 2 在 SA-V val/test 上相对 prior work 的差距尤其大。这个结果要谨慎看SA-V 是论文作者构建的数据集天然更贴近 SAM 2 的目标任务。但它仍然说明一件事旧 VOS benchmark 上的强模型不一定能覆盖“任意对象、任意部件、复杂遮挡、交互修正”的开放视频分割场景。图 16 很适合解释 SAM 2 的优势。第一帧的 mask prompt 只覆盖人的衬衫baseline 会扩散到整个人而 SAM 2 更能把 masklet 限制在目标部件上。这个例子说明SAM 2 的目标不是“跟住一个大物体”而是更细粒度地维持用户指定的 segment。图 17 列出的视频 benchmark 覆盖 UVO、Ego-Exo4D、LVOSv2、EndoVis、Virtual KITTI、ESD、VISOR、PUMaVOS 等多种场景。它提醒我们SAM 2 的难点不是某个单一领域而是模型要跨开放世界、长视频、医学、驾驶、第一视角、合成数据、细胞视频等分布稳定工作。消融实验哪些设计真正重要SAM 2 的消融实验可以分成三类数据、模型容量、memory 设计。数据组合数据引擎数据带来跨域收益表 7 对不同训练数据组合做了比较。最值得看的是 row 1 和 row 11只用已有 VOS 数据时9 zero-shot 为 59.7加入 Internal 与 SA-V 等数据引擎数据后9 zero-shot 到 71.8提升 12.1 个点。训练组合SA-V valInternal-testMOSE dev9 zero-shotSA-23VOS only48.160.276.959.745.4SA-V only63.072.672.869.753.0SA-V SA-1B62.973.273.669.758.6VOS Internal SA-V61.874.478.571.855.7VOS Internal SA-V SA-1B63.173.779.071.658.9这个结果非常符合基础模型经验旧 benchmark 数据能让模型在旧 benchmark 上漂亮但开放能力需要更广、更难、更接近真实交互的数据。数据规模SA-V 呈现稳定 scaling图 6 显示随着 SA-V masklets 数量增加SA-V val、9 zero-shot、MOSE dev 上的 JF 都呈现较稳定的增长趋势。Rocky 认为这张图的意义是SAM 2 的性能不是偶然由某个技巧堆出来的而是有数据规模支撑。对创业公司和研究团队来说这也是一个现实提醒视觉基础能力的壁垒不只在模型代码更在能不能构建持续产出难例的数据系统。数据质量难例比随机样本更有价值但全量最好表 8 比较了随机 50K masklets、最常被编辑的 50K masklets以及完整 190K SA-VSettingSA-V valInternal-testMOSE dev9 zero-shotSA-23SA-1B SA-V 50k random63.770.372.368.759.1SA-1B SA-V 50k most edited66.273.072.569.258.6SA-1B SA-V69.973.873.970.859.8“most edited” 样本更强说明被人工修正次数高的样本确实是难例信号。但全量仍最好说明高质量难例和覆盖广度都不可替代。模型结构默认配置是精度、速度与显存的折中表 9 的容量消融显示维度论文结论Rocky 解读Resolution1024 相比 512/768 带来更好图像和视频效果但速度下降高分辨率对边界和小目标重要适合最终模型#Frames8 帧比 4 帧明显更好10 帧收益有限长上下文有收益但训练和推理成本存在边界#Memories6 个 memory 是速度与效果折中memory 多不是越多越好关键是保留有用上下文Memory channels64 维 memory 基本够用说明 memory 更像对象状态摘要而不是完整重编码Image encoderB 是默认折中L 精度更高但更慢产品部署会偏 B研究和高精任务可用 L表 10 显示SAM 2 默认使用 memory attention 里的 2D-RoPE同时移除 image encoder 的 RPB以便启用 FlashAttention-2 获得速度收益。表 11 显示 object pointers 对 SA-V val 和 LVOSv2 这类更难视频有明显帮助而 recurrent GRU memory 并不是必要组件。消融关键结果判断2D-RoPE no RPB在保证性能的同时获得速度优势简化位置编码换取高效 attention kernelObject pointersSA-V val 从 64.5 提升到 68.3LVOSv2 从 67.0 到 71.6对象级语义指针能帮助长时序身份保持GRU memory相比直接 memory bank 没有整体优势SAM 2 更偏 transformer memory而不是 RNN 状态机这里有一个很典型的工程审美不是所有“更复杂”的时序模块都值得加入。SAM 2 的设计偏向可扩展、可并行、能吃现代 attention kernel 红利的结构而不是为了时序感强行加 recurrent 组件。这篇工作的边界与可复现性SAM 2 的边界论文写得比较坦诚。第一它会在 shot changes、拥挤场景、长时间遮挡、很长视频、细而快的结构、外观相似的邻近物体上失败。用户可以在任意帧补 prompt 来修复很多错误但这意味着系统仍然依赖 human-in-the-loop。第二多对象处理仍然是 per-object independent。SAM 2 会共享每帧 image encoder 特征但每个对象有独立 memory bank 和 mask decoder 流程没有显式对象间通信。这个设计简单、稳但在多目标遮挡、相互接触、实例关系建模上可能不是最终形态。第三数据引擎依然需要人工选择难例、修正 masklet、验证质量。自动 masklet 能提高覆盖率但“自动生成 自动验证 自动修复”还没有完全闭环。第四可复现性比一般商业论文更好但仍然不是零成本。论文释放了模型、训练代码、demo 代码和 SA-V 数据集同时模型卡披露 released SAM 2 使用 256 张 A100 训练 108 小时估计能耗 12165.12 kWh。这对学术复现和创业团队微调都是现实门槛。资源/信息论文披露模型与代码SAM 2 checkpoints、training code、demo code以 permissive licenses 发布SA-V 数据集CC BY 4.0训练算力released SAM 2 使用 256 A100 GPUs 训练 108 小时模型定位research use casepromptable video and image segmentation数据风险建议新场景使用者做自己的 fairness evaluationRocky 的判断是SAM 2 的复现难点不在代码能不能跑而在是否能复刻“数据引擎 标注协议 难例闭环 大规模训练”的完整系统。工具开源降低了使用门槛但真正的护城河仍然在数据、流程和产品场景。如果继续研究或落地应该关注什么1. 从“对象记忆”走向“场景记忆”SAM 2 的 memory 是围绕单个对象组织的。未来更强的视频系统可能需要同时维护对象、关系、事件和场景状态。比如机器人拿杯子不只要知道杯子 mask还要知道杯子和手、桌面、障碍物的关系。2. 从 human-in-the-loop 走向 verifier-in-the-loopSAM 2 数据引擎仍需要人工验证。下一步真正有商业价值的是自动 verifier模型不仅生成 masklet还能判断哪里不稳定、哪里需要人修、哪里可以自动加入训练集。数据闭环的自动化程度会决定成本曲线。3. 从分割工具走向视频编辑基础设施对视频编辑产品来说SAM 2 不是一个单独按钮而是抠像、跟踪、局部替换、风格化、物体移除、视频重绘的基础层。未来很多 AIGC 视频工具的用户体验都会依赖这种“对象可被持续选中和修正”的能力。4. 从视觉基础模型走向世界模型组件世界模型不只是生成未来帧还要持续绑定对象身份、状态和可操作边界。SAM 2 这种可提示、可记忆、可交互的视频分割能力可能成为世界模型里的对象 grounding 层。它不等于世界模型但它解决了世界模型落地里非常基础的一环什么是当前场景里可被操作、可被追踪、可被引用的对象。5. 从 benchmark 精度走向用户交互成本论文里最有产品味的指标不是单纯 JF而是更少交互达到更高质量。AI 产品的真实成本往往不是模型推理一次多少钱而是用户需要返工几次、等待多久、是否能在错误发生时自然修正。SAM 2 把这个问题显式纳入评估是很好的信号。术语与概念速查术语含义为什么重要SAMSegment Anything Model静态图像 promptable segmentation 模型SAM 2 的起点SAM 2面向图像和视频的统一 promptable segmentation 模型本文主角PVSPromptable Visual Segmentation把图像分割和视频分割统一起来的新任务Masklet一个对象在整段视频中的时空 mask 序列视频分割的核心输出Streaming memory流式处理视频帧并保存对象历史状态的架构实时视频能力的关键Memory attention当前帧特征对历史 memory 和 object pointer 做 attention让当前预测利用过去信息Memory encoder把预测 mask 和图像特征融合成 memory把当前结果写入记忆Memory bank保存最近帧和提示帧 memory 的队列控制上下文、速度和存储Object pointer来自 mask decoder token 的轻量对象语义向量帮助跨帧维持对象身份SA-VSegment Anything Video datasetSAM 2 的关键数据资产JF视频分割常用指标综合 region similarity J 和 contour accuracy F衡量视频 masklet 质量mIoUmean Intersection over Union图像分割常用指标表格证据索引为了让文章保持可读性上文保留了关键表格的 Markdown 版本其余附录大表以证据索引方式归纳。完整数值应以论文原表为准。表号主题结论Table 1数据引擎阶段对比Phase 3 使用 SAM 2 后每帧标注从 37.8s 降到 4.5s约 8.4x 提速Table 2各阶段数据加入后的性能从 VOSSA-1B 到 AutoSA-V val 从 50.0 到 63.2Table 3SA-V 与已有 VOS 数据集规模比较SA-V ManualAuto 有 642.6K masklets、35.5M masksTable 417 视频数据集不同 prompt 的 zero-shotSAM 2 在 1/3/5-click、box、mask 全部优于两个拼接式 baselineTable 5图像 SA 任务主结果SAM 2 在相近或更高精度下比 SAM 快约 6xTable 6半监督 VOS 主比较SAM 2 在 MOSE、DAVIS、LVOS、SA-V、YTVOS 上整体领先Table 7数据组合消融数据引擎数据带来 9 zero-shot 的显著提升Table 8数据质量消融most-edited 难例优于随机样本但全量 SA-V 最好Table 9模型容量消融1024 分辨率、8 帧、B encoder 是默认折中Table 10位置编码消融2D-RoPE 去 RPB 兼顾性能和 FlashAttention-2 加速Table 11memory 设计消融object pointer 对 SA-V/LVOSv2 有帮助GRU memory 整体不必要Table 12训练超参数披露预训练、全量训练、增强、loss、batch 等配置Table 13fairness evaluation3-click 和 mask prompt 下 demographic gap 较小Table 14DAVIS interactive benchmarkSAM 2 click 输入下优于 CiVOSJF60s 达 0.90Table 1537 图像数据集详细 zero-shotSAM 2 Hiera-B/L 与 SAM、HQ-SAM 的细分比较Table 1617 个视频 zero-shot 数据集说明覆盖医疗、驾驶、开放世界、长视频、显微、第一视角等分布Table 17更完整 VOS SOTA 比较SAM 2 在 SA-V、LVOS、LVOSv2、MOSE、DAVIS、YTVOS 多指标领先Table 18Model card披露 intended use、license、metrics、training data、compute impact 与 caveats拓展思考这篇论文的跨周期价值Rocky 认为SAM 2 的长期价值不在于它某个榜单多高而在于它把三个东西合在了一起任务抽象、状态化模型、数据闭环。很多 AI 技术的短期热度来自 demo长期价值来自它能不能进入基础工作流。SAM 2 很明显属于后者。它让“选中视频中的任意对象”这件事变得更接近基础设施能力可以被视频编辑调用可以被机器人感知调用可以被自动标注调用也可以被后续生成式视频模型调用。当然它还不是终点。它对多对象关系、复杂长视频、自动验证、真实商业场景的鲁棒性都还有明显空间。但技术周期从来不会因为一个模型还不完美就停止前进。更重要的问题是它有没有把问题推进到一个更高层的抽象。SAM 2 做到了。SAM 1 把图像分割从类别预测变成 promptable interface。SAM 2 把这个 interface 推进到时间维度并用 memory 让用户意图可以跨帧延续。这个方向的本质是视觉模型从“识别内容”走向“维护对象状态”。对 AI 算法工程师来说SAM 2 值得学习的是如何把模型结构、训练模拟、数据引擎和交互评估设计成一套系统。对产品经理来说SAM 2 值得学习的是真正好的 AI 交互不是一次生成正确而是允许用户用最低成本纠错并让系统记住这次纠错。对创业者和投资人来说SAM 2 的启发更直接单点工具红利会被大模型吸收但围绕场景数据、交互闭环、质量验证和工作流嵌入形成的系统能力仍然有跨周期价值。工具会迭代模型会换代工作流会被重构。真正能留下来的是把技术能力翻译成可持续生产力的系统。SAM 2 之所以值得认真读正是因为它不是只展示了一个更强的分割模型而是展示了视频 AI 基础设施该如何被构建。推荐阅读1. 深入浅出完整解析AI AgentAI智能体的核心基础知识2025年可以说是AI Agent全面落地应用的元年因此Rocky在持续撰写对AI Agent的全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识和Rocky一起学习探究扩散模型的本质原理与和核心基础知识同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解深入浅出完整解析扩散模型DDPM、DDIM、SDE、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识3. 深入浅出完整解析FLUX.2、Seedream即梦、Z-image、GLM-Image核心基础知识https://zhuanlan.zhihu.com/p/19751746910491895624. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识5. 深入浅出完整解析DeepSeek系列核心基础知识深入浅出完整解析DeepSeek系列核心基础知识6、Sora等AI视频大模型的核心原理核心基础知识网络结构经典应用场景从0到1搭建使用AI视频大模型从0到1训练自己的AI视频大模型AI视频大模型性能测评AI视频领域未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Sora等AI视频大模型文章地址深入浅出完整解析Sora、Wan2.1、AnimateDiff、CogVideoX等AI视频大模型核心基础知识7、Stable Diffusion 3和FLUX.1核心原理核心基础知识网络结构从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion 3和FLUX.1文章地址深入浅出完整解析Stable Diffusion 3SD 3和FLUX.1系列核心基础知识8、Stable Diffusion XL核心基础知识网络结构从0到1搭建使用Stable Diffusion XL进行AI绘画从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型AI绘画领域的未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion XL文章地址深入浅出完整解析Stable Diffusion XLSDXL核心基础知识9、Stable Diffusion 1.x-2.x核心原理核心基础知识网络结构经典应用场景从0到1搭建使用Stable Diffusion进行AI绘画从0到1上手使用Stable Diffusion训练自己的AI绘画模型Stable Diffusion性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion文章地址深入浅出完整解析Stable DiffusionSD核心基础知识10、ControlNet核心基础知识核心网络结构从0到1使用ControlNet进行AI绘画从0到1训练自己的ControlNet模型从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布码字不易欢迎大家多多点赞ControlNet文章地址深入浅出完整解析ControlNet核心基础知识11、LoRA系列模型核心原理核心基础知识从0到1使用LoRA模型进行AI绘画从0到1上手训练自己的LoRA模型LoRA变体模型介绍优质LoRA推荐等全维度解析文章正式发布码字不易欢迎大家多多点赞LoRA文章地址深入浅出完整解析LoRALow-Rank Adaptation模型核心基础知识12、深入浅出完整解析AIGC时代Transformer核心基础知识在AIGC时代中Transformer为AI行业带来了深刻的变革。Transformer架构正在一步一步重构所有的AI技术方向成为AI技术架构大一统与多模态整合的关键核心基座大有一统“AI江湖”之势。Rocky也对Transformer模型进行持续的深入浅出梳理与解析Transformer文章地址深入浅出完整解析AIGC时代Transformer核心基础知识13、最全面的AIGC面经《手把手教你成为AIGC算法工程师斩获AIGC算法offer2024年版》文章正式发布码字不易欢迎大家多多点赞AIGC面经文章地址手把手教你成为AIGC算法工程师斩获AIGC算法offer14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布码字不易欢迎大家多多点赞算法工程师三年面试五年模拟文章地址https://zhuanlan.zhihu.com/p/545374303《三年面试五年模拟》github项目地址希望大家能多多starhttps://github.com/WeThinkIn/Interview-for-Algorithm-Engineer15、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识从0到1搭建AI绘画框架从0到1使用AI绘画框架的保姆级教程深入浅出介绍AI绘画框架的各模块功能深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布码字不易欢迎大家多多点赞AI绘画框架文章地址深入浅出完整解析主流AI绘画框架ComfyUI、Stable Diffusion WebUI、Fooocus核心基础知识16、GAN网络核心基础知识网络架构GAN经典变体模型经典应用场景GAN在AIGC时代的商业应用等全维度解析文章正式发布码字不易欢迎大家多多点赞GAN网络文章地址https://zhuanlan.zhihu.com/p/66315730617. AI算法工程师的《三年面试五年模拟》求职秘籍AIGC时代的算法工程师的求职面试秘籍持续更新中18. AIGC产业的深度思考与分析2023年3月21日微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示自从1980年首次看到图形用户界面graphical user interface以来以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。Rocky也认为AIGC及其生态会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期未来随着AIGC的全面落地和深度商用会深刻改变我们的工作、生活、学习以及交流方式各行各业都将被重新定义过程会非常有趣。那么在此基础上我们该如何更好的审视AIGC的未来我们该如何更好地拥抱AIGC引领的革新Rocky准备从技术、产品、商业模式、长期主义等维度持续分享一些个人的核心思考与观点希望能帮助各位读者对AIGC有一个全面的了解深入浅出全面解析AIGC时代核心价值与发展趋势2025年版