视觉语言模型(VLMs)已经展现出在响应图像时生成类似人类文本的显著能力,其中包括GPT-4、Gemini、PaLiGemma、LLaVA和Llama 3 Vision模型。然而,这些模型经常生成缺乏对参考图像适当依据的虚构内容,这突显了它们输出可靠性的一个关键缺陷。检测和防止这种虚构内容的需求要求有效的奖励模型(RMs)来进行评估和改进。当前的基于二分类的RMs只为整个输出提供单分数评估,严重限制了它们的可解释性和粒度。这种粗略的评估方法掩盖了决策过程,使得开发者难以确定改进的具体领域,并在VLM性能上实施针对性的增强。
现有方法的局限性
之前的尝试主要集中在基于人类反馈的强化学习(RLHF)技术上,这些技术已成功提升了ChatGPT和LLaMA 3等语言模型。这些方法通常涉及在人类偏好数据上训练奖励模型,并使用Proximal Policy Optimization(PPO)或Direct Policy Optimization(DPO)等算法进行策略学习。尽管在过程奖励模型和逐步奖励模型方面取得了一些进展,但现有解决方案在检测虚构内容方面主要限于语言领域,并在句子级别粒度上操作。其他方法探讨了通过人类注释生成合成数据和硬负挖掘、基于启发式的方法以及结合自动生成和手动验证的混合方法。然而,这些方法尚未充分解决在VLM中表示和评估视觉特征的核心挑战,这仍然是开发更可靠的视觉-语言基础模型的一个重要瓶颈。
TLDR模型的创新
来自Meta和南加州大学的研究人员引入了Token-Level Detective Reward(TLDR)模型,通过提供逐令牌评估而不是单分数评估,代表了对VLM输出评估的一个突破。这种细粒度的方法能够精确识别生成文本中的虚构内容和错误,对于能够快速识别和纠正特定问题段落的标注者来说尤其有价值。
论文地址:https://arxiv.org/abs/2410.04734
TLDR是一种为大型视觉语言模型(VLMs)提供细粒度注释的奖励模型。TLDR模型旨在通过评估并为每个文本标记分配奖励,而不是对整个序列进行评估,从而提高模型的可解释性和粒度。
例如,考虑一个图像描述任务,模型需要根据输入图像生成描述性文本。传统的奖励模型可能会给出整体的评分,而TLDR模型则会对生成的每个单词或短语进行评估,指出哪些部分是准确的,哪些部分是错误或与图像不匹配的。
主要功能
- 细粒度评估:TLDR模型对每个文本标记进行评估,而不是整个序列,提供了更细致的反馈。
- 自我修正:利用TLDR模型的细粒度反馈,模型可以自我修正生成的文本,提高与图像的一致性。
- 幻觉评估:TLDR模型可以用来计算模型的幻觉率,即生成与图像不匹配的文本的比例。
主要特点
- 可解释性:TLDR模型提供了更清晰的模型输出评估,使得人类更容易诊断和改进性能。
- 视觉基础:TLDR模型结合了多模态线索,更好地评估模型性能,确保视觉和文本信号都被考虑在内。
- 自我修正能力:TLDR模型的细粒度反馈可以帮助模型更精确地识别错误来源,并进行自我修正。
工作原理
TLDR模型通过以下步骤工作:
- 数据生成:使用扰动方法生成合成的困难负样本及其标记级别的标签,用于训练TLDR模型。
- 模型训练:使用特定的架构(如PaliGemma-3B-Mix-448)训练TLDR模型,使其能够对每个文本标记进行评估。
- 评估与修正:TLDR模型评估生成的文本,识别出与图像不匹配的标记,并指导模型进行修正。
实验设置和评估
TLDR模型在处理由图像、用户文本提示和文本响应组成的多模态查询-响应实例时运行。性能通过三种不同的准确性指标进行评估:
- 令牌级准确性:用于单个令牌评估。
- 句子级准确性:用于评估连贯的文本段。
- 响应级准确性:用于整体输出评估。
为了解决数据稀缺和粒度问题,系统采用了复杂的合成数据生成技术,特别是专注于密集字幕和视觉问题回答任务。通过使用大型语言模型进行系统扰动过程,训练数据得到了增强,专门针对八个关键分类:空间关系、视觉属性、属性绑定、对象识别、计数、小物体检测、文本OCR和反事实场景。
实验结果
当在DOCCI数据集的合成数据上测试时,TLDR模型在多个评估指标上显示出稳健的性能。性能分析显示,与传统的二分类奖励模型相比,响应级准确性略胜一筹,达到了显著的41.3 mAP(neg)分数。详细的分类分解表明,在空间关系评估方面存在特别挑战,这与当前VLM技术的已知局限性一致。对WinoGround图像上的令牌级预测进行的人类评估,专注于假阴性,显示了一个适度的句子级假阴性率8.7%。
实际应用
TLDR在包括Llama-3.2-Vision、GPT-4变体、MiniCPM、PaLiGemma和Phi 3.5 Vision等各种领先的VLM上全面检测虚构内容,显示出其有效性。GPT-4o在所有粒度级别上的虚构率最低,成为顶级表现者。模型的有用性延伸到实际应用,如对PixelProse数据集的分析所示,其中它在22.39%的标题中识别出了虚构的令牌,令牌级和句子级的虚构率分别为0.83%和5.23%。
- 图像描述任务:在图像描述任务中,TLDR模型可以评估和改进模型生成的描述,使其更准确地反映图像内容。
- 视觉问题回答(VQA):在VQA任务中,TLDR模型可以用来评估模型给出的答案,提高答案的准确性和可靠性。
- 数据标注加速:TLDR模型可以加快人类标注者修正模型生成的文本的速度,从而以更低的成本创建大量高质量的视觉语言数据。
结论
Token-Level Detective Reward(TLDR)模型通过其细粒度的令牌级注释能力,在评估和改进视觉语言模型方面代表了一个重大进步。TLDR不仅识别错误,而且精确定位具体问题区域,使有效的自我纠正和检测虚构内容成为可能。模型的有效性延伸到实际应用,作为一种似然优化方法,并促进了更快的人类注释过程。这种创新方法为高级令牌级DPO和PPO后训练方法奠定了基础,标志着VLM发展中的一个重要步骤。