AI·新世界

加州大学伯克利分校 Sky Computing 实验室推出训练成本低于 450 美元的推理 AI 模型Sky-T1-32B-Preview

2025年1月13日

文章目录[隐藏]

成本与效率的突破
推理模型的优势
性能表现
未来展望

在 AI 领域，推理模型的开发一直被视为高成本、高门槛的项目。然而，这一局面正在被加州大学伯克利分校 Sky Computing 实验室的研究团队 NovaSky 所打破。他们于周五发布了 Sky-T1-32B-Preview，一款训练成本低于 450 美元的推理 AI 模型，这一成果在多个关键基准测试中与 OpenAI 的早期版本 o1 竞争激烈，且完全开源，包括训练数据集和代码。

官方介绍：https://novasky-ai.github.io/posts/sky-t1
GitHub：https://github.com/NovaSky-AI/SkyThought
模型：https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview

成本与效率的突破

450 美元的训练成本在 AI 领域显得尤为突出。不久前，训练一个性能相当的模型动辄需要数百万美元。Sky-T1 的低成本得益于合成训练数据的使用，这种数据由其他模型生成，大大降低了训练成本。例如，AI 公司 Writer 最近发布的 Palmyra X 004 模型几乎完全依赖合成数据进行训练，开发成本仅为 70 万美元。

推理模型的优势

与大多数 AI 模型不同，推理模型能够有效地自我事实核查，避免了常见陷阱。虽然推理模型需要更长时间（几秒到几分钟）来得出解决方案，但在物理、科学和数学等领域往往更可靠。NovaSky 团队利用阿里巴巴的 QwQ-32B-Preview 生成 Sky-T1 的初始训练数据，并通过 OpenAI 的 GPT-4o-mini 重构数据，使其更易处理。训练拥有 320 亿参数的 Sky-T1 大约花费了 19 小时，使用了 8 台 Nvidia H100 GPU。

性能表现

Sky-T1 在多个基准测试中表现出色。在 MATH500（一组“竞赛级”数学挑战）上，Sky-T1 的表现优于 OpenAI 的 o1 早期预览版本。在 LiveCodeBench（一个编码评估工具）的一组难题上，Sky-T1 也击败了 o1 的预览版本。然而，在 GPQA-Diamond（包含物理学、生物学和化学相关的问题）上，Sky-T1 的表现不如 o1 预览版本。

未来展望

尽管 OpenAI 的 o1 正式发布版本比预览版本更强大，且预计将在未来几周内发布性能更优的推理模型 o3，但 NovaSky 团队表示，Sky-T1 只是他们开发具有高级推理能力的开源模型的开始。团队计划未来专注于开发更高效的模型，保持强大的推理性能，并探索先进技术，以进一步提高模型在测试时的效率和准确性。

加州大学伯克利分校 Sky Computing 实验室推出训练成本低于 450 美元的推理 AI 模型Sky-T1-32B-Preview

成本与效率的突破

推理模型的优势

性能表现

未来展望

相关文章