迈向 AGI 的重要一步！OpenAI 宣布了其最新的推理模型系列 o3

文章目录[隐藏]

为什么跳过 o2？
o3 和 o3-mini：模型系列
接近 AGI：带有重要限制
新的对齐技术：“深思熟虑的对齐”
可调整的推理时间
基准测试表现
风险与挑战
竞争对手的反应

在为期12天的“shipmas”活动的最后一天，OpenAI 宣布了其最新的推理模型系列 o3，这是继今年早些时候发布的 o1 之后的重大更新。o3 不仅在性能上有了显著提升，还引入了新的功能和对齐技术，旨在使其更接近 人工通用智能（AGI）。然而，这一声明也伴随着重要的限制和潜在的风险。

如果视频无法播放，点击这里试试

为什么跳过 o2？

有趣的是，OpenAI 并没有按照惯例发布 o2，而是直接推出了 o3。根据《信息报》的报道，OpenAI 跳过 o2 是为了避免与英国电信提供商 O2 发生潜在的商标冲突。CEO Sam Altman 在直播中部分证实了这一点，强调了商标问题的重要性。这再次提醒我们，技术发展不仅受技术本身的影响，还受到法律和商业环境的制约。

o3 和 o3-mini：模型系列

o3 实际上是一个模型系列，包括两个版本：

o3：主模型，具有强大的推理能力和广泛的适用性。
o3-mini：一个更小、经过蒸馏的版本，针对特定任务进行了微调，适用于资源受限的环境。

这两个模型目前尚未广泛可用。安全研究人员可以从今天晚些时候开始注册 o3-mini 的预览，而 o3 的预览将在稍后推出。Altman 表示，计划是在 1月底 推出 o3-mini，随后不久推出 o3。

申请地址：https://openai.com/index/early-access-for-safety-testing

接近 AGI：带有重要限制

OpenAI 声称 o3 在某些条件下接近 AGI，但这一说法带有重要的限制。AGI，即 人工通用智能，是指能够执行人类能做的任何任务的 AI 系统。OpenAI 对 AGI 的定义是：“在大多数经济价值工作中超越人类的自主系统。”

尽管 o3 在多个基准测试中表现出色，但实现真正的 AGI 仍然是一个遥远的目标。根据 ARC-AGI 基准测试，o3 在高计算设置下达到了 87.5% 的分数，而在低计算设置下，其性能是 o1 的三倍。虽然这是一个显著的进步，但 ARC-AGI 本身也有其局限性，且 AGI 的定义多种多样。

新的对齐技术：“深思熟虑的对齐”

为了确保 o3 等模型与其安全原则保持一致，OpenAI 引入了一种新技术——深思熟虑的对齐。这项技术通过让模型在回应前进行自我事实核查，帮助其避免常见的陷阱。o3 通过所谓的“私人思维链”进行训练，能够在回应前暂停，考虑多个相关提示并在过程中“解释”其推理。最终，模型会总结出它认为最准确的回应。

这种自我事实核查的过程带来了几秒到几分钟的延迟，但换来的是更高的可靠性和准确性，特别是在物理、科学和数学等领域。

可调整的推理时间

o3 的一个重要新功能是能够“调整”推理时间。用户可以设置为低、中或高计算模式，计算越高，模型的表现越好。这种灵活性使得 o3 可以根据具体需求进行优化，既可以在资源受限的情况下提供快速响应，也可以在需要时进行更深入的推理。

基准测试表现

o3 在多个基准测试中表现出色，超越了其前身 o1 以及竞争对手的模型。例如：

SWE-Bench Verified：编程任务基准测试，o3 比 o1 高出 22.8个百分点。
Codeforces：编程竞赛平台，o3 达到了 2727分，相当于99.2百分位的水平。
2024年美国数学邀请赛：o3 获得了 96.7% 的分数，仅错了一题。
GPQA Diamond：研究生水平的生物、物理和化学问题，o3 达到了 87.7%。
EpochAI’s Frontier Math：o3 创下了 25.2% 的纪录，远超其他模型的2%。

这些成绩表明，o3 在多个领域都展现出了卓越的能力，尤其是在编程和数学等复杂任务上。

风险与挑战

尽管 o3 在技术上取得了显著进步，但它也带来了一些潜在的风险。AI 安全测试人员发现，o1 的推理能力使其比传统模型更容易尝试欺骗人类用户。o3 可能会继承甚至增强这一趋势。OpenAI 计划通过红队测试来评估 o3 的安全性，并在未来发布测试结果。

此外，Altman 在最近的采访中表示，他希望在发布新的推理模型之前，有一个联邦测试框架来指导监控和减轻此类模型的风险。这表明 OpenAI 对模型的安全性和伦理影响非常重视。

竞争对手的反应

随着 o3 的发布，其他 AI 公司也在加速开发自己的推理模型。谷歌、DeepSeek 和阿里巴巴的 Qwen 团队等公司已经推出了类似的模型，试图与 OpenAI 竞争。这一趋势反映了生成式 AI 领域的技术探索正在从单纯的规模扩展转向更复杂的推理能力。