AI·新世界

CLIP与大语言模型相结合的新方法LLM2CLIP：强大的语言模型解锁更丰富的视觉表现

2024年11月16日

文章目录[隐藏]

大语言模型的作用
当前的发展
LLM2CLIP 方法
结论

在当今世界，CLIP 是最重要的多模态基础模型之一。通过在大规模图像-文本对上使用简单的对比学习损失，CLIP 将视觉和文本信号结合到一个共享的特征空间中。作为检索器，CLIP 支持许多任务，包括零样本分类、检测、分割和图像-文本检索。此外，作为特征提取器，它在几乎所有跨模态表示任务中占据主导地位，如图像理解、视频理解和文本到图像/视频生成。其主要优势在于能够将图像与自然语言连接起来，并捕捉人类知识，因为它是在具有详细文本描述的大规模网络数据上训练的，不同于传统的视觉编码器。

大语言模型的作用

随着大语言模型（LLMs）的快速发展，语言理解和生成的边界不断被推动。LLMs 强大的文本技能可以帮助 CLIP 更好地处理长而复杂的描述，这是原始 CLIP 的一个弱点。LLMs 还拥有大量文本数据集的广泛知识，使训练更加有效。然而，LLMs 的生成文本方式有时会隐藏其输出的不清晰性。

当前的发展

当前的发展已经扩展了 CLIP 处理其他模态的能力，其在该领域的影响力正在增长。像 Llama3 这样的新模型已被用于扩展 CLIP 的描述长度，并通过利用 LLMs 的开放世界知识来提高其性能。然而，将 LLMs 与 CLIP 结合起来需要克服其文本编码器的限制。在多次实验中，发现直接将 LLMs 集成到 CLIP 中会导致性能下降。因此，存在一些挑战需要克服，以探索将 LLMs 整合到 CLIP 中的潜在好处。

LLM2CLIP 方法

同济大学和微软公司的研究人员进行了详细的研究，并提出了 LLM2CLIP 方法，通过整合大语言模型（LLMs）来增强视觉表示学习。该方法通过替换原始 CLIP 文本编码器并利用 LLMs 的广泛知识增强 CLIP 视觉编码器，采取了一个简单的步骤。它识别了与此创新想法相关的关键障碍，并提出了一种成本效益高的微调策略来克服它们。

GitHub：https://github.com/microsoft/LLM2CLIP
模型：https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c

关键技术和步骤

替换原始 CLIP 文本编码器：直接用 LLM 替换 CLIP 的文本编码器。
描述对比微调：引入描述对比微调技术，以提高 LLM 区分图像描述的能力。
经济实惠的微调策略：通过冻结 LLM 梯度，保持 CLIP 训练的大批量大小，从而保持计算效率。

实验结果

实验主要集中在使用 CC-3M 等数据集对模型进行微调，以更好地进行图像-文本匹配。对于 LLM2CLIP 微调，测试了三种数据集大小：小（CC-3M）、中（CC-3M 和 CC-12M）和大（CC-3M、CC-12M、YFCC-15M 和 Recaption-1B）。使用增强描述的训练提高了性能，而使用未训练的语言模型进行 CLIP 则降低了性能。使用 LLM2CLIP 训练的模型在图像到文本和文本到图像检索等任务中优于标准 CLIP 和 EVA，突显了将大型语言模型与图像-文本模型结合的优势。

性能提升

长文本和短文本检索任务：LLM2CLIP 直接将之前的 SOTA EVA02 模型的性能提升了 16.5%。
跨语言模型：将仅在英语数据上训练的 CLIP 模型转变为最先进的跨语言模型。
多模态训练：整合了像 Llava 1.5 这样的多模态训练后，它在几乎所有基准测试中都优于 CLIP，显示出整体性能的显著提升。

结论

所提出的方法允许 LLMs 在 CLIP 训练中提供帮助。通过调整数据分布、长度或类别等参数，LLM 可以被修改以修复 CLIP 的局限性。它允许 LLM 作为各种任务的更全面的教师。在所提出的工作中，LLM 梯度在微调期间被冻结，以保持 CLIP 训练的大批量大小。在未来的工作中，LLM2CLIP 可以从头开始在 Laion-2B 和 Recaption-1B 等数据集上进行训练，以获得更好的结果和性能。这项工作可以作为未来 CLIP 训练及其广泛应用研究的基线。