Tülu 3:艾伦AI研究所发布最先进的指令遵循模型,百分百开源

艾伦人工智能研究所(AI2)宣布发布Tülu 3,这是一系列最先进的指令遵循模型,旨在为AI能力设定新的基准。此次发布包括最先进的功能、方法和工具,为研究人员和开发者提供了一个全面的、开源的解决方案。通过Tülu 3,AI2成功解决了从对话AI到数学、推理和评估等复杂问题解决领域的广泛任务。

关键特点

模型家族

Tülu 3是一个优先考虑透明性、开放性和最先进性能的模型家族。这些模型基于Meta的Llama 3.1框架,并在一个包含公开可用、合成和人类创建数据的广泛数据集上进行了微调。这种方法确保了Tülu 3在包括数学、GSM8K和IFEval等专业领域以及通用聊天和推理任务在内的多样化任务中表现出色。

模型尺寸

Tülu 3家族包括两个主要模型尺寸:

  • Tülu 3 8B(Llama-3.1-Tulu-3-8B)
  • Tülu 3 70B(Llama-3.1-Tulu-3-70B)

训练技术

这些模型使用了先进的训练技术,包括:

  • 顺序微调(SFT):逐步优化模型以适应特定任务。
  • 直接偏好优化(DPO):通过直接优化模型以匹配人类偏好来提高性能。
  • 价值正则化强化学习(RLVR):结合强化学习和价值正则化,以提高响应质量和稳定性。

性能指标

Tülu 3模型在多个基准评估中展示了显著的性能:

  • MMLU(0-shot思维链):在多任务多语言理解任务中表现出色。
  • GSM8K(8-shot思维链):8B模型得分87.6,70B模型得分93.5。
  • HumanEval:70B模型达到92.4%的pass@10率。
  • 安全任务:8B和70B模型分别得分85.5和88.3,展示了处理敏感和复杂查询的可靠性。

开放性和可访问性

Tülu 3真正与众不同之处在于其对开放性的承诺。AI2已经将模型、训练数据集、评估代码和方法完全开源。研究人员和开发者可以访问以下资源:

  • 训练仓库:包含训练代码和数据集。
  • 评估仓库:包含评估代码和基准测试结果。
  • 技术报告:详细介绍了模型的架构和能力。
  • Playground平台:提供了一个互动演示,让用户亲自探索模型的性能和应用。

先进的训练技术

Tülu 3模型的训练结合了先进的后训练技术,以最大化性能:

  • RLVR方法:引入了强化学习概念,以提高响应质量同时保持价值正则化。
  • 关键超参数:学习率为3*10^(-7),gamma为1.0,KL惩罚系数范围为[0.1, 0.05, 0.03, 0.01]。
  • 支持的最大token长度:标准支持2048个token,数学任务扩展至4096个token。

创新的聊天模板

Tülu 3采用了创新的聊天模板,以简化对话AI交互:

  • 用户和助手角色:模板嵌入了用户和助手角色,确保无缝和连贯的交流。
  • 默认系统提示:指导模型在聊天会话中的行为,例如“您是Tülu 3,一个由艾伦人工智能研究所构建的有帮助且无害的AI助手”。

超越聊天的应用

尽管Tülu 3在对话任务中表现出色,但其能力不仅限于简单的对话。模型在复杂的推理基准测试中也表现出色:

  • 数学任务:70B模型得分63.0。
  • BigBenchHard任务:70B模型得分82.0。
  • 内容生成、总结和编码:在HumanEval和HumanEval+任务中,70B模型分别达到了92.4和88.0的pass@10分数。

局限性和挑战

尽管Tülu 3具有显著的能力,但它并非没有局限性:

  • 安全训练:模型在安全训练方面有限,并且不具备一些专有模型中的循环过滤机制。
  • 训练数据集:确切组成仍未公开,引发了对其潜在偏见的担忧。
我们将24小时内回复。
取消