加州大学伯克利分校团队以30美元重现DeepSeek R1-Zero核心技术

加州大学伯克利分校的一个AI研究团队,在博士候选人潘家怡的带领下,成功地利用仅30美元的成本重现了DeepSeek R1-Zero的核心技术。他们的目标是展示如何通过低成本的方式实现先进的模型性能,并扩展较小模型的能力。

研究方法与成果

潘家怡在其Nitter社交平台上分享了团队的研究成果。他们基于Countdown游戏(一个源自英国同名电视节目的数学挑战)来训练和测试其模型。在这个游戏中,玩家需要使用基本算术从一组给定的数字中计算出一个目标数字。

具体步骤包括:

  • 基础模型:团队从一个基本的语言模型开始,并结合提示和一个基础事实奖励机制。
  • 强化学习应用:在Countdown游戏环境中运行强化学习算法,使模型能够逐步发展出自验证和搜索能力。
  • 问题解决策略:模型最初可能只是随机猜测答案,但随着时间推移,它学会了提出答案、验证其正确性并通过多次迭代进行修正,最终找到正确的解决方案。

此外,团队还尝试了乘法运算,展示了模型如何采用不同的技巧来解方程,例如使用乘法分配律分解问题,然后逐步求解。

模型规模与性能

该团队不仅限于单一规模的模型,而是探索了不同参数量的基础模型(从5亿到70亿参数)。结果显示,随着模型参数数量的增加,其解决问题的能力显著增强。特别是当模型拥有30亿参数时,它能够在更少的步骤内找到正确答案。

经济效益

最令人瞩目的是,整个实验仅花费了大约30美元,这与当前市场上其他服务相比,如OpenAI的o1 API每百万个输入token收费15美元,显得尤为经济高效。相比之下,DeepSeek-R1的每百万个输入token费用为0.55美元,成本效益明显更高。

潘家怡指出,此项目旨在让新兴的强化学习扩展研究更加可及,尤其是对于那些受限于预算的研究人员和开发者来说,提供了一个极具成本效益的解决方案。

通过这项研究,潘家怡及其团队证明了即使是相对较小的模型,也能借助适当的技术手段达到接近顶尖模型的表现,同时极大地降低了开发成本。这对于推动AI技术的普及和发展具有重要意义。