扩散模型在推理时间(inference-time)的扩展行为

纽约大学、麻省理工学院和谷歌的研究人员发布论文,探讨了扩散模型在推理时间(inference-time)的扩展行为,提出了一个框架,通过搜索更好的噪声来提升扩散模型在生成任务中的性能,而不仅仅是增加去噪步骤的数量。研究发现,通过合理设计验证器(verifiers)和搜索算法,可以在不同的应用场景中显著提高扩散模型生成样本的质量。

以图像生成为例,传统的扩散模型通过逐步去除噪声来生成图像。本文提出的方法不仅调整去噪步骤的数量,还通过搜索更优的初始噪声或采样过程中的噪声,来提高生成图像的质量。例如,在ImageNet数据集上,使用本文提出的搜索框架,可以在不增加模型训练成本的情况下,通过增加推理时的计算量,生成质量更高的图像。

主要功能

  • 提升生成质量:通过在推理阶段增加计算量,搜索更优的噪声,从而提高生成样本的质量。
  • 适应不同应用场景:根据不同任务的需求,选择合适的验证器和搜索算法,以达到最佳的性能提升。
  • 扩展模型性能:为扩散模型提供了一种在推理阶段进一步扩展性能的方法,尤其是在计算资源允许的情况下。

主要特点

  • 搜索框架:提出了一个基于搜索的框架,通过验证器的反馈来指导搜索更优的噪声。
  • 任务特定优化:强调了根据具体任务选择或设计验证器的重要性,因为不同的任务可能需要不同的生成质量指标。
  • 计算资源的有效利用:展示了如何在推理阶段有效利用额外的计算资源来提升生成性能,而不是仅仅依赖于增加去噪步骤。

工作原理

  1. 定义搜索问题:将推理时间的扩展行为定义为一个搜索问题,目标是找到更好的噪声用于扩散采样过程。
  2. 设计空间:沿着两个轴构建设计空间:用于提供反馈的验证器和用于寻找更好噪声候选者的算法。
  3. 验证器:考虑了三种不同的设置,模拟三种不同的用例:有特权信息、有条件信息和无额外信息的情况。
  4. 搜索算法:考虑了三种搜索算法:随机搜索、零阶搜索和路径搜索。这些算法利用验证器的反馈来迭代改进噪声候选者。
  5. 实验验证:通过在ImageNet和DrawBench等数据集上的实验,验证了增加推理时计算量可以显著提高扩散模型生成样本的质量,并且不同的验证器和算法组合在不同的任务中表现不同,没有一种配置是普遍最优的。

具体应用场景

  • 图像生成:在给定类别或文本描述的条件下生成高质量的图像。例如,生成特定种类的动物图像或根据文本描述生成场景图像。
  • 文本到图像的生成:根据文本提示生成对应的图像,如“一个穿着红色衣服的男孩在公园里玩耍”。
  • 内容创作:为内容创作者提供高质量的图像素材,帮助他们更快速地实现创意构思。
  • 数据增强:在机器学习和数据科学领域,用于生成额外的训练数据,以提高模型的泛化能力。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注