2024-11-06发表2025-03-21更新 ByteAILab 9 分钟读完 (大约1383个字)

无需训练即可大幅提升SAM 2！开源的SAM2Long来了，港中文、上海AI Lab出品

Segment Anything Model 2（SAM 2）在传统视频目标分割任务大放异彩，引起了众多关注。然而，港中文和上海 AI Lab 的研究团队发现 SAM 2 的贪婪选择策略容易陷入”错误累积”的问题，即一次错误的分割掩码选择将影响后续帧的分割结果，导致整个视频分割性能的下降。

这个问题在长视频分割任务中显得更加严重。

针对这些挑战，该研究团队近日推出了全新的 SAM2Long。在 Segment Anything Model 2（SAM 2）的基础上，提出了创新的记忆结构设计，打造了专为复杂长视频的分割模型。

SAM2Long 采用了一种全新的多路径记忆树结构，使得模型可以在每一帧处理时探索多种可能的分割路径，并根据综合得分选择最佳路径进行后续帧的分割。这种设计避免了单一错误掩码对整个视频的影响，使得 SAM2Long 在处理遮挡、目标重现等长视频常见问题时表现得更加稳健。

论文链接：https://mark12ding.github.io/project/SAM2Long/asset/images/paper.pdf
项目链接：https://mark12ding.github.io/project/SAM2Long/
代码链接：https://github.com/Mark12Ding/SAM2Long

SAM2Long 方法简述

SAM 2 的基础概述
SAM 2 是一种用于图像和视频对象分割的基础模型。与 SAM 不同，SAM 2 引入了一个内存模块，该模块利用先前帧的信息和提示帧特征来帮助当前帧的分割。在视频对象分割任务中，SAM 2 会在每个时间步 t 上维护一个内存库，存储最近 N 帧的特征。每个内存条目包含空间嵌入和对象指针，通过这些信息，SAM 2 能够生成当前帧的分割掩码，并预测掩码的 IoU 分数和遮挡分数。SAM 2 采用贪婪选择策略，选择最高 IoU 的掩码作为最终预测，并存储其对应的内存指针。
多路径记忆树结构与不确定性处理
为了提高 SAM 2 在长视频中的鲁棒性，SAM2Long 引入了多路径记忆树结构。该结构允许模型在每个时间步上保留多个分割路径假设，每条路径都有独立的内存库和累积得分。每个时间步上，SAM2 的掩码解码器在每条路径会生成三个掩码候选。

为了防止路径数量过多引起计算和内存开销过高，SAM2Long 实施了剪枝策略。我们计算每个掩码累积 IoU 得分，只保留得分最高的 P 条路径。

此外，SAM2Long 在处理不确定场景时，利用遮挡分数进行不确定性处理。当所有路径的遮挡分数都较低时，意味着模型对输出的结果不确定。在这种情况下，SAM2Long 会强制选择不同 IoU 值的掩码路径，以避免错误路径的过早收敛。

SAM2Long 超越现有方法，实现 SOTA

我们将 SAM2Long 与当前最先进的视频对象分割方法进行了对比。尽管 SAM 2.1 已经在众多数据集上显著超越了现有方法，但 SAM2.1Long 将这一成绩推向了更高的水平。特别是在 SA-V 验证集上，SAM2.1Long 的 J&F 得分为 81.1，较 SAM 2.1 提升了 2.5 分。在其他数据集上的表现也显示出 SAM2.1Long 在长时间视频场景下的优越性。

SAM2Long 在应对不同挑战的视频时展现了强大的通用性

除了在SA-V和LVOS数据集上的出色表现外，SAM2.1Long 在其他视频对象分割基准测试上也取得了令人瞩目的成绩。在不同数据集上，SAM2.1Long 在处理复杂和模糊分割任务时展现了强大能力。

这些结果表明，SAM2Long 在保留 SAM 2 基础分割能力的同时，显著增强了其长时间视频场景下的表现，展现了其在不同 VOS 基准数据集上的鲁棒性和通用性。

结语

SAM2Long 是基于 SAM 2 的一种针对长时间视频对象分割任务的全新方法。通过引入多路径记忆树结构和不确定性处理机制，SAM2Long 有效地解决了长视频中遮挡、对象重现和错误累积等挑战。

实验结果表明，SAM2Long 在多个主流数据集上显著提升了分割精度，尤其是在未见类别和复杂场景中的表现尤为突出。相比于 SAM 2，SAM2Long 不仅保持了较低的计算开销，还在泛化能力和鲁棒性上实现了突破。

未来，我们相信 SAM2Long 可以广泛应用于各种实际场景，如自动驾驶、视频编辑和智能监控，推动视频对象分割技术的进一步发展。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

无需训练即可大幅提升SAM 2！开源的SAM2Long来了，港中文、上海AI Lab出品

https://www.gptnb.com/2024/11/06/2024-11-05-auto5_2-dHEcPk/

作者

ByteAILab

发布于

2024-11-06

更新于

2025-03-21

无需训练即可大幅提升SAM 2！开源的SAM2Long来了，港中文、上海AI Lab出品

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新