AI·新世界

扩散模型在推理时间（inference-time）的扩展行为

2025年1月18日

/

文章目录[隐藏]

主要功能
主要特点
工作原理
具体应用场景

纽约大学、麻省理工学院和谷歌的研究人员发布论文，探讨了扩散模型在推理时间（inference-time）的扩展行为，提出了一个框架，通过搜索更好的噪声来提升扩散模型在生成任务中的性能，而不仅仅是增加去噪步骤的数量。研究发现，通过合理设计验证器（verifiers）和搜索算法，可以在不同的应用场景中显著提高扩散模型生成样本的质量。

论文地址：https://arxiv.org/abs/2501.09732

以图像生成为例，传统的扩散模型通过逐步去除噪声来生成图像。本文提出的方法不仅调整去噪步骤的数量，还通过搜索更优的初始噪声或采样过程中的噪声，来提高生成图像的质量。例如，在ImageNet数据集上，使用本文提出的搜索框架，可以在不增加模型训练成本的情况下，通过增加推理时的计算量，生成质量更高的图像。

主要功能

提升生成质量：通过在推理阶段增加计算量，搜索更优的噪声，从而提高生成样本的质量。
适应不同应用场景：根据不同任务的需求，选择合适的验证器和搜索算法，以达到最佳的性能提升。
扩展模型性能：为扩散模型提供了一种在推理阶段进一步扩展性能的方法，尤其是在计算资源允许的情况下。

主要特点

搜索框架：提出了一个基于搜索的框架，通过验证器的反馈来指导搜索更优的噪声。
任务特定优化：强调了根据具体任务选择或设计验证器的重要性，因为不同的任务可能需要不同的生成质量指标。
计算资源的有效利用：展示了如何在推理阶段有效利用额外的计算资源来提升生成性能，而不是仅仅依赖于增加去噪步骤。

工作原理

定义搜索问题：将推理时间的扩展行为定义为一个搜索问题，目标是找到更好的噪声用于扩散采样过程。
设计空间：沿着两个轴构建设计空间：用于提供反馈的验证器和用于寻找更好噪声候选者的算法。
验证器：考虑了三种不同的设置，模拟三种不同的用例：有特权信息、有条件信息和无额外信息的情况。
搜索算法：考虑了三种搜索算法：随机搜索、零阶搜索和路径搜索。这些算法利用验证器的反馈来迭代改进噪声候选者。
实验验证：通过在ImageNet和DrawBench等数据集上的实验，验证了增加推理时计算量可以显著提高扩散模型生成样本的质量，并且不同的验证器和算法组合在不同的任务中表现不同，没有一种配置是普遍最优的。

具体应用场景

图像生成：在给定类别或文本描述的条件下生成高质量的图像。例如，生成特定种类的动物图像或根据文本描述生成场景图像。
文本到图像的生成：根据文本提示生成对应的图像，如“一个穿着红色衣服的男孩在公园里玩耍”。
内容创作：为内容创作者提供高质量的图像素材，帮助他们更快速地实现创意构思。
数据增强：在机器学习和数据科学领域，用于生成额外的训练数据，以提高模型的泛化能力。

相关文章