CLIP与大语言模型相结合的新方法LLM2CLIP:强大的语言模型解锁更丰富的视觉表现

在当今世界,CLIP 是最重要的多模态基础模型之一。通过在大规模图像-文本对上使用简单的对比学习损失,CLIP 将视觉和文本信号结合到一个共享的特征空间中。作为检索器,CLIP 支持许多任务,包括零样本分类、检测、分割和图像-文本检索。此外,作为特征提取器,它在几乎所有跨模态表示任务中占据主导地位,如图像理解、视频理解和文本到图像/视频生成。其主要优势在于能够将图像与自然语言连接起来,并捕捉人类知识,因为它是在具有详细文本描述的大规模网络数据上训练的,不同于传统的视觉编码器。

大语言模型的作用

随着大语言模型(LLMs)的快速发展,语言理解和生成的边界不断被推动。LLMs 强大的文本技能可以帮助 CLIP 更好地处理长而复杂的描述,这是原始 CLIP 的一个弱点。LLMs 还拥有大量文本数据集的广泛知识,使训练更加有效。然而,LLMs 的生成文本方式有时会隐藏其输出的不清晰性。

当前的发展

当前的发展已经扩展了 CLIP 处理其他模态的能力,其在该领域的影响力正在增长。像 Llama3 这样的新模型已被用于扩展 CLIP 的描述长度,并通过利用 LLMs 的开放世界知识来提高其性能。然而,将 LLMs 与 CLIP 结合起来需要克服其文本编码器的限制。在多次实验中,发现直接将 LLMs 集成到 CLIP 中会导致性能下降。因此,存在一些挑战需要克服,以探索将 LLMs 整合到 CLIP 中的潜在好处。

LLM2CLIP 方法

同济大学和微软公司的研究人员进行了详细的研究,并提出了 LLM2CLIP 方法,通过整合大语言模型(LLMs)来增强视觉表示学习。该方法通过替换原始 CLIP 文本编码器并利用 LLMs 的广泛知识增强 CLIP 视觉编码器,采取了一个简单的步骤。它识别了与此创新想法相关的关键障碍,并提出了一种成本效益高的微调策略来克服它们。

关键技术和步骤
  1. 替换原始 CLIP 文本编码器:直接用 LLM 替换 CLIP 的文本编码器。
  2. 描述对比微调:引入描述对比微调技术,以提高 LLM 区分图像描述的能力。
  3. 经济实惠的微调策略:通过冻结 LLM 梯度,保持 CLIP 训练的大批量大小,从而保持计算效率。
实验结果

实验主要集中在使用 CC-3M 等数据集对模型进行微调,以更好地进行图像-文本匹配。对于 LLM2CLIP 微调,测试了三种数据集大小:小(CC-3M)、中(CC-3M 和 CC-12M)和大(CC-3M、CC-12M、YFCC-15M 和 Recaption-1B)。使用增强描述的训练提高了性能,而使用未训练的语言模型进行 CLIP 则降低了性能。使用 LLM2CLIP 训练的模型在图像到文本和文本到图像检索等任务中优于标准 CLIP 和 EVA,突显了将大型语言模型与图像-文本模型结合的优势。

性能提升
  • 长文本和短文本检索任务:LLM2CLIP 直接将之前的 SOTA EVA02 模型的性能提升了 16.5%。
  • 跨语言模型:将仅在英语数据上训练的 CLIP 模型转变为最先进的跨语言模型。
  • 多模态训练:整合了像 Llava 1.5 这样的多模态训练后,它在几乎所有基准测试中都优于 CLIP,显示出整体性能的显著提升。

结论

所提出的方法允许 LLMs 在 CLIP 训练中提供帮助。通过调整数据分布、长度或类别等参数,LLM 可以被修改以修复 CLIP 的局限性。它允许 LLM 作为各种任务的更全面的教师。在所提出的工作中,LLM 梯度在微调期间被冻结,以保持 CLIP 训练的大批量大小。在未来的工作中,LLM2CLIP 可以从头开始在 Laion-2B 和 Recaption-1B 等数据集上进行训练,以获得更好的结果和性能。这项工作可以作为未来 CLIP 训练及其广泛应用研究的基线。