纽约大学、麻省理工学院和谷歌的研究人员发布论文,探讨了扩散模型在推理时间(inference-time)的扩展行为,提出了一个框架,通过搜索更好的噪声来提升扩散模型在生成任务中的性能,而不仅仅是增加去噪步骤的数量。研究发现,通过合理设计验证器(verifiers)和搜索算法,可以在不同的应用场景中显著提高扩散模型生成样本的质量。
以图像生成为例,传统的扩散模型通过逐步去除噪声来生成图像。本文提出的方法不仅调整去噪步骤的数量,还通过搜索更优的初始噪声或采样过程中的噪声,来提高生成图像的质量。例如,在ImageNet数据集上,使用本文提出的搜索框架,可以在不增加模型训练成本的情况下,通过增加推理时的计算量,生成质量更高的图像。
主要功能
- 提升生成质量:通过在推理阶段增加计算量,搜索更优的噪声,从而提高生成样本的质量。
- 适应不同应用场景:根据不同任务的需求,选择合适的验证器和搜索算法,以达到最佳的性能提升。
- 扩展模型性能:为扩散模型提供了一种在推理阶段进一步扩展性能的方法,尤其是在计算资源允许的情况下。
主要特点
- 搜索框架:提出了一个基于搜索的框架,通过验证器的反馈来指导搜索更优的噪声。
- 任务特定优化:强调了根据具体任务选择或设计验证器的重要性,因为不同的任务可能需要不同的生成质量指标。
- 计算资源的有效利用:展示了如何在推理阶段有效利用额外的计算资源来提升生成性能,而不是仅仅依赖于增加去噪步骤。
工作原理
- 定义搜索问题:将推理时间的扩展行为定义为一个搜索问题,目标是找到更好的噪声用于扩散采样过程。
- 设计空间:沿着两个轴构建设计空间:用于提供反馈的验证器和用于寻找更好噪声候选者的算法。
- 验证器:考虑了三种不同的设置,模拟三种不同的用例:有特权信息、有条件信息和无额外信息的情况。
- 搜索算法:考虑了三种搜索算法:随机搜索、零阶搜索和路径搜索。这些算法利用验证器的反馈来迭代改进噪声候选者。
- 实验验证:通过在ImageNet和DrawBench等数据集上的实验,验证了增加推理时计算量可以显著提高扩散模型生成样本的质量,并且不同的验证器和算法组合在不同的任务中表现不同,没有一种配置是普遍最优的。
具体应用场景
- 图像生成:在给定类别或文本描述的条件下生成高质量的图像。例如,生成特定种类的动物图像或根据文本描述生成场景图像。
- 文本到图像的生成:根据文本提示生成对应的图像,如“一个穿着红色衣服的男孩在公园里玩耍”。
- 内容创作:为内容创作者提供高质量的图像素材,帮助他们更快速地实现创意构思。
- 数据增强:在机器学习和数据科学领域,用于生成额外的训练数据,以提高模型的泛化能力。
发表回复