游戏可以分为有限或无限。有限游戏围绕实现特定结果构建,具有固定的规则、边界和明确的终点。相比之下,无限游戏专注于无限期地继续游戏,适应规则和边界。大多数传统视频游戏都是有限的,因为编程和图形设计限制使它们只能有一套固定的机制和视觉资源,使它们成为具有有限动作和特定获胜条件的封闭系统。
生成式AI的潜力
然而,生成式AI的最新进展为创造无限游戏体验开辟了新的可能性。大型语言模型能够处理复杂的游戏机制、角色互动、动态叙事,以及高级视觉模型能够根据提示生成高质量的图形。这种组合允许故事情节和互动不断适应,为没有固定限制的新游戏奠定了基础。
UNBOUNDED:生成式无限游戏
来自谷歌和北卡罗来纳大学教堂山分校的研究人员推出了UNBOUNDED,这是一个使用AI设计的生成式无限游戏,旨在超越传统的有限视频游戏边界。受生活模拟和角色扮演游戏的启发,UNBOUNDED使用一个专门的语言模型来创建动态游戏机制、故事情节、角色互动,以及一个区域图像提示适配器,用于在不同的场景中生成一致的视觉效果。玩家在一个模拟世界中与角色互动,角色的演变基于他们的选择,创造了开放式的、实时的互动。这个框架凸显了一个新的范式,其中生成模型控制游戏内容和逻辑,使沉浸式、无限的游戏玩法成为可能。
以用户创建一个自定义的巫师角色Archibus为例,用户可以通过自然语言与游戏进行互动,Archibus的饥饿、能量和乐趣指标会相应更新。随着用户的游戏进程,一个自发且不受限制的故事展开,角色可以探索新环境,并进行各种可能的行动和意外的互动。
主要功能
- 角色个性化:玩家可以定义角色的外观和个性。
- 游戏环境生成:系统生成一个持久的、可互动的游戏世界供角色探索。
- 开放式互动和游戏玩法:玩家通过自然语言与角色互动,游戏根据玩家的行动动态生成新的场景和故事情节。
- 交互式速度生成:游戏以接近实时的交互速度运行,刷新率接近每秒。
主要特点
- 生成无限游戏:UNBOUNDED是一个视频游戏,它使用生成模型超越了硬编码系统的局限。
- 技术革新:在大型语言模型(LLM)和视觉生成领域的技术创新。
- 实时互动:专注于游戏速度,实现比简单实现快5-10倍的速度。
工作原理
- LLM游戏引擎:开发了一个基于LLM的游戏引擎,能够实时维护一致的游戏机制、生成连贯的叙事和产生上下文角色响应。
- 视觉生成:引入了一个新的动态区域图像提示适配器(IP-Adapter),确保角色在多个环境中的视觉生成一致且灵活。
- 数据收集与模型蒸馏:通过两个强大的LLM代理自动生成数据,然后对小型模型进行蒸馏,以实现实时互动。
技术细节
UNBOUNDED是一个由文本到图像生成和语言模型提供支持的无限互动游戏,允许玩家创建自定义角色、探索动态世界,并参与开放式的游戏玩法。具体技术包括:
- 潜在一致性模型(LCM):用于实现与高分辨率图像的实时互动,高效地进行文本到图像生成。
- DreamBooth:用于维持角色和环境的一致性。
- 区域IP-适配器:将角色和环境条件分离,确保在不同场景中的一致性。
- 蒸馏后的语言模型:使用Gemma-2B模型增强互动性,几乎即时响应玩家的动作和选择。
评估结果
评估显示,带有块状掉落的区域IP-适配器在与环境和对齐质量相关的指标上实现了强大的环境角色一致性,超过了先前的方法。在量化评估中,它保持了环境角色一致性,同时保留了与提示的语义对齐。在定性评估中,该方法展示了一致地生成与指定条件相匹配的角色和环境。此外,使用动态块状掉落进一步提高了对齐和图像准确性。在将语言模型与游戏引擎进行比较时,模型的性能受益于使用更大的数据集,有效地缩小了与领先模型的差距。
创新与影响
UNBOUNDED是一个创新的生成式游戏,它使用先进的生成模型扩展了传统的有限设计。这款游戏集成了一个蒸馏后的语言模型,用于实时、互动的角色和叙事发展,以及一个带有新型区域IP-适配器的快速扩散模型,实现了跨场景的视觉一致性。借鉴无限游戏的概念,UNBOUNDED允许开放式的游戏玩法,用户可以在动态、演变的环境中与虚拟角色互动。语言和视觉模型的技术进步确保了角色行为、故事进展和场景一致性方面的连贯性,提供了无缝、沉浸式的体验,这是传统方法无法比拟的。
结论
UNBOUNDED不仅展示了生成式AI在游戏开发中的巨大潜力,还为未来的无限游戏设计提供了新的范式。通过结合先进的语言和视觉模型,UNBOUNDED为玩家提供了一个不断演变、无限扩展的游戏世界,开启了游戏体验的新纪元。