采用了混合头架构!英伟达推出小规模语言模型Hymba

英伟达推出一种新型的小规模语言模型——Hymba。Hymba采用了混合头架构(Hybrid-head Architecture),这种架构结合了变换器(Transformer)的注意力机制和状态空间模型(State Space Models, SSMs),以提高效率。Hymba的主要特点是在同一个层内集成了注意力头和SSM头,提供并行和互补的处理方式,同时引入了可学习的元令牌(meta tokens),这些元令牌被添加到输入序列的前面,存储关键信息,减轻了注意力机制的负担。

例如,我们有一个问答系统,用户问:“法国的首都是什么?”Hymba模型能够理解这个问题,并从其训练数据中提取出“巴黎”作为答案。由于Hymba的混合头架构和元令牌,它能够有效地处理和回忆相关信息,即使在面对大量数据时也能保持高效率和准确性。

主要功能和特点:

  1. 混合头架构:Hymba结合了注意力头和SSM头,使得模型能够同时利用注意力机制的高分辨率回忆和SSM的高效上下文总结。
  2. 元令牌:引入可学习的元令牌,这些令牌作为输入序列的前缀,与所有后续令牌交互,存储关键信息,减轻了注意力机制的负担。
  3. 跨层键值共享:通过在连续层之间共享键值(KV)缓存,减少了内存使用和模型参数。
  4. 部分滑动窗口注意力:大多数层采用滑动窗口注意力,进一步降低了缓存成本。
  5. 高效性能:Hymba在小规模语言模型中取得了最先进的结果,例如Hymba-1.5B-Base模型在性能上超过了所有小于2B的公共模型,甚至在平均准确率上超过了Llama-3.2-3B。

工作原理:

Hymba的工作原理基于混合头模块,该模块并行处理输入信息,使得不同的注意力和SSM头可以以不同的方式存储、检索和处理相同的信息。这种设计使得Hymba能够同时利用注意力机制的高分辨率回忆和SSM的高效上下文总结。此外,元令牌作为输入序列的前缀,参与所有后续令牌的注意力和SSM计算,类似于人脑中的元记忆,帮助识别在其他记忆中定位所需信息的位置。

具体应用场景:

  1. 常识推理任务:Hymba在常识推理任务中表现出色,能够理解和推理关于世界的基本知识。
  2. 问答系统:Hymba可以用于构建问答系统,通过理解问题并从给定的文本中提取答案。
  3. 文本摘要和生成:Hymba可以用于生成文本摘要或根据给定的指令生成新的文本内容。
  4. 指令遵循:Hymba还可以用于需要遵循复杂指令的场景,如编程语言的理解和执行。
我们将24小时内回复。
取消