触觉传感在机器人技术中的重要性及 Meta AI 的 Sparsh 解决方案

触觉传感在机器人技术中扮演着至关重要的角色,帮助机器有效地理解和与其环境互动。然而,基于视觉的触觉传感器目前面临着重大挑战。传感器的多样性——包括不同的形状、光照条件和表面标记——使得构建通用解决方案变得困难。传统模型通常是为特定任务或传感器开发和设计的,这限制了这些解决方案在不同应用中的扩展效率。此外,获取关键属性(如力和滑动)的标记数据既耗时又资源密集,进一步限制了触觉传感技术在广泛应用中的潜力。

Meta AI 发布 Sparsh:首个基于视觉的触觉传感通用编码器

为了应对这些挑战,Meta AI 推出了 Sparsh,这是首个基于视觉的触觉传感通用编码器。Sparsh 以梵语中的“触摸”命名,恰当地代表了从传感器特定模型向更灵活、可扩展方法的转变。Sparsh 利用自监督学习(Self-Supervised Learning, SSL)的最新进展,创建适用于各种基于视觉的触觉传感器的触摸表示。与依赖特定任务标记数据的早期方法不同,Sparsh 使用超过 46 万张来自各种触觉传感器的未标记触觉图像进行训练。通过避免依赖标签,Sparsh 开启了传统触觉模型无法提供的应用之门。

Sparsh 的技术细节和优势

Sparsh 基于几种最先进的 SSL 模型构建,如 DINO 和联合嵌入预测架构(Joint Embedding Prediction Architecture, JEPA),这些模型已适应触觉领域。这种方法使 Sparsh 能够跨各种类型的传感器(如 DIGIT 和 GelSight)进行泛化,并在多个任务中实现高性能。在超过 46 万张触觉图像上预训练的编码器家族作为骨干,减轻了对手动标记数据的需求,并实现了更高效的训练。

Sparsh 框架包括 TacBench,这是一个由六个以触摸为中心的任务组成的基准,如力估计、滑动检测、姿态估计、抓握稳定性、纺织品识别和灵巧操作。这些任务评估 Sparsh 模型与传统传感器特定解决方案相比的表现,突显了显著的性能提升——平均提升 95%——同时仅使用其他模型所需标记数据的 33-50%。

Sparsh 在机器人和 AI 中的重要性

Sparsh 的意义重大,特别是在机器人技术中,触觉传感在改善物理交互和灵巧性方面起着至关重要的作用。通过克服传统模型需要标记数据的限制,Sparsh 为更高级的应用铺平了道路,包括手内操作和灵巧规划。评估显示,Sparsh 在基准场景中比端到端任务特定模型高出 95% 以上。这意味着配备 Sparsh 驱动的触觉传感器的机器人可以更好地理解其物理环境,即使只有最少的标记数据。此外,Sparsh 在各种任务中表现出色,包括滑动检测(在测试模型中达到最高的 F1 分数)和纺织品识别,为现实世界的机器人操作任务提供了强大的解决方案。