TLDR模型：为大型视觉语言模型提供细粒度注释的奖励模型

文章目录[隐藏]

现有方法的局限性
TLDR模型的创新
主要功能
主要特点
工作原理
实验设置和评估
实验结果
实际应用
结论

视觉语言模型（VLMs）已经展现出在响应图像时生成类似人类文本的显著能力，其中包括GPT-4、Gemini、PaLiGemma、LLaVA和Llama 3 Vision模型。然而，这些模型经常生成缺乏对参考图像适当依据的虚构内容，这突显了它们输出可靠性的一个关键缺陷。检测和防止这种虚构内容的需求要求有效的奖励模型（RMs）来进行评估和改进。当前的基于二分类的RMs只为整个输出提供单分数评估，严重限制了它们的可解释性和粒度。这种粗略的评估方法掩盖了决策过程，使得开发者难以确定改进的具体领域，并在VLM性能上实施针对性的增强。

现有方法的局限性

之前的尝试主要集中在基于人类反馈的强化学习（RLHF）技术上，这些技术已成功提升了ChatGPT和LLaMA 3等语言模型。这些方法通常涉及在人类偏好数据上训练奖励模型，并使用Proximal Policy Optimization（PPO）或Direct Policy Optimization（DPO）等算法进行策略学习。尽管在过程奖励模型和逐步奖励模型方面取得了一些进展，但现有解决方案在检测虚构内容方面主要限于语言领域，并在句子级别粒度上操作。其他方法探讨了通过人类注释生成合成数据和硬负挖掘、基于启发式的方法以及结合自动生成和手动验证的混合方法。然而，这些方法尚未充分解决在VLM中表示和评估视觉特征的核心挑战，这仍然是开发更可靠的视觉-语言基础模型的一个重要瓶颈。

TLDR模型的创新

来自Meta和南加州大学的研究人员引入了Token-Level Detective Reward（TLDR）模型，通过提供逐令牌评估而不是单分数评估，代表了对VLM输出评估的一个突破。这种细粒度的方法能够精确识别生成文本中的虚构内容和错误，对于能够快速识别和纠正特定问题段落的标注者来说尤其有价值。

论文地址：https://arxiv.org/abs/2410.04734

TLDR是一种为大型视觉语言模型（VLMs）提供细粒度注释的奖励模型。TLDR模型旨在通过评估并为每个文本标记分配奖励，而不是对整个序列进行评估，从而提高模型的可解释性和粒度。

例如，考虑一个图像描述任务，模型需要根据输入图像生成描述性文本。传统的奖励模型可能会给出整体的评分，而TLDR模型则会对生成的每个单词或短语进行评估，指出哪些部分是准确的，哪些部分是错误或与图像不匹配的。

主要功能

细粒度评估：TLDR模型对每个文本标记进行评估，而不是整个序列，提供了更细致的反馈。
自我修正：利用TLDR模型的细粒度反馈，模型可以自我修正生成的文本，提高与图像的一致性。
幻觉评估：TLDR模型可以用来计算模型的幻觉率，即生成与图像不匹配的文本的比例。

主要特点

可解释性：TLDR模型提供了更清晰的模型输出评估，使得人类更容易诊断和改进性能。
视觉基础：TLDR模型结合了多模态线索，更好地评估模型性能，确保视觉和文本信号都被考虑在内。
自我修正能力：TLDR模型的细粒度反馈可以帮助模型更精确地识别错误来源，并进行自我修正。

工作原理

TLDR模型通过以下步骤工作：

数据生成：使用扰动方法生成合成的困难负样本及其标记级别的标签，用于训练TLDR模型。
模型训练：使用特定的架构（如PaliGemma-3B-Mix-448）训练TLDR模型，使其能够对每个文本标记进行评估。
评估与修正：TLDR模型评估生成的文本，识别出与图像不匹配的标记，并指导模型进行修正。

实验设置和评估

TLDR模型在处理由图像、用户文本提示和文本响应组成的多模态查询-响应实例时运行。性能通过三种不同的准确性指标进行评估：

令牌级准确性：用于单个令牌评估。
句子级准确性：用于评估连贯的文本段。
响应级准确性：用于整体输出评估。

为了解决数据稀缺和粒度问题，系统采用了复杂的合成数据生成技术，特别是专注于密集字幕和视觉问题回答任务。通过使用大型语言模型进行系统扰动过程，训练数据得到了增强，专门针对八个关键分类：空间关系、视觉属性、属性绑定、对象识别、计数、小物体检测、文本OCR和反事实场景。

实验结果

当在DOCCI数据集的合成数据上测试时，TLDR模型在多个评估指标上显示出稳健的性能。性能分析显示，与传统的二分类奖励模型相比，响应级准确性略胜一筹，达到了显著的41.3 mAP(neg)分数。详细的分类分解表明，在空间关系评估方面存在特别挑战，这与当前VLM技术的已知局限性一致。对WinoGround图像上的令牌级预测进行的人类评估，专注于假阴性，显示了一个适度的句子级假阴性率8.7%。

实际应用

TLDR在包括Llama-3.2-Vision、GPT-4变体、MiniCPM、PaLiGemma和Phi 3.5 Vision等各种领先的VLM上全面检测虚构内容，显示出其有效性。GPT-4o在所有粒度级别上的虚构率最低，成为顶级表现者。模型的有用性延伸到实际应用，如对PixelProse数据集的分析所示，其中它在22.39%的标题中识别出了虚构的令牌，令牌级和句子级的虚构率分别为0.83%和5.23%。

图像描述任务：在图像描述任务中，TLDR模型可以评估和改进模型生成的描述，使其更准确地反映图像内容。
视觉问题回答（VQA）：在VQA任务中，TLDR模型可以用来评估模型给出的答案，提高答案的准确性和可靠性。
数据标注加速：TLDR模型可以加快人类标注者修正模型生成的文本的速度，从而以更低的成本创建大量高质量的视觉语言数据。

结论

Token-Level Detective Reward（TLDR）模型通过其细粒度的令牌级注释能力，在评估和改进视觉语言模型方面代表了一个重大进步。TLDR不仅识别错误，而且精确定位具体问题区域，使有效的自我纠正和检测虚构内容成为可能。模型的有效性延伸到实际应用，作为一种似然优化方法，并促进了更快的人类注释过程。这种创新方法为高级令牌级DPO和PPO后训练方法奠定了基础，标志着VLM发展中的一个重要步骤。