在 AI 领域,推理模型的开发一直被视为高成本、高门槛的项目。然而,这一局面正在被加州大学伯克利分校 Sky Computing 实验室的研究团队 NovaSky 所打破。他们于周五发布了 Sky-T1-32B-Preview,一款训练成本低于 450 美元的推理 AI 模型,这一成果在多个关键基准测试中与 OpenAI 的早期版本 o1 竞争激烈,且完全开源,包括训练数据集和代码。
- 官方介绍:https://novasky-ai.github.io/posts/sky-t1
- GitHub:https://github.com/NovaSky-AI/SkyThought
- 模型:https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview
成本与效率的突破
450 美元的训练成本在 AI 领域显得尤为突出。不久前,训练一个性能相当的模型动辄需要数百万美元。Sky-T1 的低成本得益于合成训练数据的使用,这种数据由其他模型生成,大大降低了训练成本。例如,AI 公司 Writer 最近发布的 Palmyra X 004 模型几乎完全依赖合成数据进行训练,开发成本仅为 70 万美元。
推理模型的优势
与大多数 AI 模型不同,推理模型能够有效地自我事实核查,避免了常见陷阱。虽然推理模型需要更长时间(几秒到几分钟)来得出解决方案,但在物理、科学和数学等领域往往更可靠。NovaSky 团队利用阿里巴巴的 QwQ-32B-Preview 生成 Sky-T1 的初始训练数据,并通过 OpenAI 的 GPT-4o-mini 重构数据,使其更易处理。训练拥有 320 亿参数的 Sky-T1 大约花费了 19 小时,使用了 8 台 Nvidia H100 GPU。
性能表现
Sky-T1 在多个基准测试中表现出色。在 MATH500(一组“竞赛级”数学挑战)上,Sky-T1 的表现优于 OpenAI 的 o1 早期预览版本。在 LiveCodeBench(一个编码评估工具)的一组难题上,Sky-T1 也击败了 o1 的预览版本。然而,在 GPQA-Diamond(包含物理学、生物学和化学相关的问题)上,Sky-T1 的表现不如 o1 预览版本。
未来展望
尽管 OpenAI 的 o1 正式发布版本比预览版本更强大,且预计将在未来几周内发布性能更优的推理模型 o3,但 NovaSky 团队表示,Sky-T1 只是他们开发具有高级推理能力的开源模型的开始。团队计划未来专注于开发更高效的模型,保持强大的推理性能,并探索先进技术,以进一步提高模型在测试时的效率和准确性。
发表回复