AI·新世界

基于 SAM 2的视频对象分割的技术SAM2Long：提高对长视频序列中对象的分割能力

2024年10月24日

/

文章目录[隐藏]

SAM2Long 的设计与原理
主要功能和特点：
工作原理：
实验结果与性能提升
具体应用场景：

Segment Anything Model 2 (SAM 2) 是一个在图像和视频对象分割领域表现出色的基础模型，为众多下游视频应用提供了强有力的支持。然而，SAM 2 在处理复杂长期视频时面临的一个主要问题是其记忆模块的“错误累积”现象，即一旦某帧的分割出现错误，这种误差可能会传递到后续帧，进而影响整体分割质量。

SAM2Long 的设计与原理

为了解决上述问题，香港中文大学和上海人工智能实验室的研究人员开发了 SAM2Long，这是一种改进的无训练视频对象分割策略。SAM2Long 的核心思想是通过引入分割不确定性估计和多路径搜索机制，减少错误累积的影响，提高模型在长期视频中的鲁棒性和准确性。

GitHub：https://github.com/Mark12Ding/SAM2Long
项目主页：https://mark12ding.github.io/project/SAM2Long

例如，你正在观看一个关于野生动物的纪录片，纪录片中有许多不同的动物在复杂的自然环境中活动。使用 SAM2Long，你可以指定一个动物，然后这个模型就能在整段视频中持续追踪并准确分割出这只动物，即使它被遮挡或者暂时离开画面后再次出现。

主要功能和特点：

记忆模块改进：SAM2Long 改进了 SAM 2 的记忆模块，允许模型在处理当前帧时考虑之前帧中的对象信息，从而更好地处理遮挡和对象重现的情况。
训练自由：SAM2Long 的改进不需要额外的训练或外部参数，它直接利用 SAM 2 的潜力，通过设计更优的记忆结构来提升性能。
多路径搜索：SAM2Long 通过在树状结构中维护多个可能的分割路径，并选择累积分数最高的路径作为最终结果，从而减少错误累积的影响。
对象感知记忆库：SAM2Long 构建了一个对象感知的记忆库，它根据预测的遮挡分数和 IoU（交并比）分数选择性地包含帧，以提供有效的对象线索。

工作原理：

记忆路径维护：在处理视频时，SAM2Long 会维护固定数量的分割路径，每条路径都有自己的记忆库和累积分数。
候选分支生成：对于每条路径，模型会基于当前路径的记忆库生成多个候选分支（即不同的分割假设）。
路径选择与剪枝：在所有候选分支中，模型选择累积分数最高的固定数量的分支作为新的路径，剪枝其他分支，以此控制树状结构的生长。
最终结果选择：在处理完最后一帧后，选择累积分数最高的路径作为最终的分割结果。

实验结果与性能提升

SAM2Long 在多个长期视频对象分割基准测试中展现了显著的优势。具体来说：

在 SA-V 和 LVOS 等基准测试中，SAM2Long 实现了 J&F 指标（联合和融合得分）的最大提升达 5.3 点。
在总共 24 次一对一比较中，SAM2Long 平均提升了 3.0 点。

这些结果表明，SAM2Long 不仅能够更准确地分割和跟踪复杂场景中的对象，而且在处理遮挡和对象重新出现等挑战性情况时表现出更强的鲁棒性。

具体应用场景：

视频编辑：在视频制作中，SAM2Long 可以帮助编辑者快速准确地分割出视频中的对象，进行后续的编辑和效果添加。
监控分析：在安全监控领域，SAM2Long 能够追踪视频中的特定对象，如行人或车辆，即使它们暂时离开视野或被遮挡。
自动驾驶：在自动驾驶技术中，SAM2Long 可以帮助车辆更准确地识别和追踪道路上的其他车辆和行人，提高安全性。
体育分析：在体育赛事的录像分析中，SAM2Long 可以追踪运动员，分析其动作和表现。

SAM2Long 通过其创新的记忆树结构和对象感知记忆库，显著提高了视频对象分割的准确性和鲁棒性，特别是在处理复杂和长期的视频中。

相关文章