全景图像拼接技术提供了一种统一的广角视角,能够展示超出单个相机视野的场景。然而,将旋转视频的帧缝合成全景照片在处理静止场景时已经是一个已知的问题,当场景中存在移动物体时,静态的全景图无法捕捉到整个场景的变化。
为了解决这一问题,华盛顿大学Google DeepMind 和魏茨曼科学研究所的研究人员提出了一种创新方法VidPanos,可以从随意捕获的旋转视频中合成全景视频,使结果看起来像是用广角相机拍摄的一样。
VidPanos能够将我们平时随手拍摄的、带有平移运动的普通视频转换成全景视频。全景视频是一种能够提供宽广视角的视频,让我们能够体验到超越相机视野范围的场景。例如,你正在旅行时拍摄了一个视频,记录了周围的风景和动态场景,比如移动的人群、车辆和水流。VidPanos可以将这样的视频转换成一个全景视频,让你在回放时能够体验到更广阔的视野和更完整的场景动态。
主要功能和特点
- 全景视频合成:VidPanos可以将普通拍摄的视频转换成全景视频,就像用广角相机拍摄的一样。
- 空间-时间外推:它通过空间-时间外推技术填补视频中未知的区域,确保视频内容的连贯性和一致性。
- 强大的视频内容和运动先验:系统利用生成视频模型来完成视频内容和运动的一致性外推。
- 适应性:能够适应包含移动人物和物体的一般性、多方向平移输入视频。
工作原理
研究人员将全景合成视为一个时空外绘问题,目标是创建与输入视频长度相同的完整全景视频。为了实现时空体积的一致性完成,需要一个强大、现实的视频内容和运动先验。为此,他们适应了生成式视频模型。然而,现有的生成模型并不能立即扩展到全景完成任务。因此,研究人员将视频生成作为全景合成系统的一个组成部分,并展示了如何利用模型的优点同时最小化其局限性。
VidPanos的工作原理可以分为以下几个步骤:
- 视频投影:将输入的视频投影到全景画布上。
- 视频生成:使用生成视频模型来合成未知区域的真实和一致的动态内容。
- 粗到细的合成:采用时间维度的粗到细方法和空间维度的掩模尊重聚合,以实现视频的逐步精细化。
- 运动一致性:通过在不同时间分辨率下完成全景视频,确保视频在时间上的连贯性。
具体应用场景
- 旅行记录:在旅行时拍摄的视频可以转换成全景视频,提供更丰富的视觉体验。
- 监控视频:将监控摄像头拍摄的视频转换成全景视频,以便更好地监控大范围区域。
- 体育赛事:将体育赛事的视频转换成全景视频,让观众能够从多个角度观看比赛。
- 虚拟现实(VR):为VR应用创建全景视频内容,提升用户的沉浸感。
总的来说,VidPanos通过先进的视频生成技术,让我们能够从普通视频中获得更广阔的视野和更完整的动态场景体验。