动态压缩方法EvoPress:通过动态调整模型的压缩级别来优化大型视频理解模型

大语言模型(LLMs)的高计算成本促使研究人员探索各种压缩方法,如量化、稀疏化和结构化修剪。这些方法旨在减少模型的存储和计算需求,同时尽量减少精度损失。然而,传统的压缩方法通常依赖于启发式方法来确定每个层的压缩级别,这些方法假设端到端模型压缩误差与逐层误差之和成比例,即误差单调性。然而,这种假设在LLMs中并不总是成立,导致压缩效果不尽如人意。

问题识别

误差单调性假设的局限性

  • 误差单调性:传统方法假设逐层误差之和与端到端模型压缩误差成比例,但这种假设在LLMs中并不总是成立。
  • 实际问题:具有较低逐层误差之和的压缩模型可能比具有较高误差和的模型表现更差。

新方法:EvoPress

为了解决上述问题,来自苏黎世联邦理工学院等机构的研究人员提出了一种新的动态压缩方法——EvoPress。EvoPress是一个通用的进化框架,旨在动态调整每个块甚至每个层的压缩级别,以最小化精度损失,同时保证全局压缩阈值。

主要功能和特点

  • 更少的令牌代表视频:EvoPress的核心功能是使用极少的视觉令牌(比如32个)来代表整个视频,相比之下,其他模型可能需要数千个令牌。
  • 保持性能:尽管令牌数量大幅减少,但EvoPress能够保持与大型模型相当的视频问答准确率。
  • 效率提升:通过减少令牌数量,EvoPress显著提高了模型的计算效率,减少了训练和推理的时间。

工作原理

EvoPress的工作原理可以分为以下几个步骤:

  1. 视觉编码:首先,模型使用视觉编码器(比如ViT)处理视频的每一帧。
  2. 令牌化:然后,通过一个帧级标记器将图像帧减少到一定数量的视觉令牌。
  3. 时间编码:接下来,时间编码器(Temporal Encoder)将一系列帧级令牌抽象成更少的视频级令牌。
  4. 输出生成:最后,一个自回归的语言模型(LLM)根据这些视频令牌和文本提示生成输出文本。

EvoPress通过探索不同类型的时间编码器(包括可学习的时空池化和序列模型),来找到最佳的压缩配置,以最小的准确度损失实现全局压缩阈值。

具体应用场景

EvoPress的应用场景包括但不限于:

  • 视频问答系统:比如,你可以问电脑,“这个视频里的人在做什么?”电脑能够理解视频内容并给出答案。
  • 视频内容分析:在安全监控或内容审核领域,EvoPress可以帮助自动识别和分析视频中的关键事件。
  • 视频搜索和推荐:通过理解视频内容,EvoPress可以用于视频搜索引擎,提供更准确的搜索结果,或者在视频平台上推荐相关视频。
我们将24小时内回复。
取消