OpenAI 12天假日主题产品发布活动第9天：o1模型API全面开放

文章目录[隐藏]

o1系列模型概述
通过API发布的完整o1模型
主要更新和特性

在OpenAI假日主题产品发布活动“12天OpenAI”的第9天，OpenAI通过其应用程序编程接口（API）向第三方开发者推出了其最先进的模型 o1。这一举措为希望构建新的高级AI应用程序或将最先进OpenAI技术集成到现有应用程序和工作流程中的开发者提供了重大进展，无论是面向企业还是消费者。

o1系列模型概述

o1系列模型是在2024年9月宣布的，作为ChatGPT公司新“家族”模型中的第一个成员，它超越了GPT家族系列的大型语言模型（LLMs），引入了“推理”能力。具体来说，o1系列模型——包括 o1 和 o1 mini——不仅能够对用户的提示进行回答，而且在形成答案时会自我检查以确保正确性，从而减少幻觉现象。OpenAI表示，o1可以处理更复杂的、博士水平的问题，并且这一点已经在真实世界中得到了用户的证实。

通过API发布的完整o1模型

尽管开发者之前可以访问o1的预览版本并用于构建自己的应用程序（如博士顾问或实验室助理），但通过API发布的完整o1模型生产版本带来了显著的改进：

性能提升：提高了准确性、效率和灵活性。
更低延迟：响应时间更快，适合实时应用。
新特性：增加了结构化输出、函数调用、视觉输入处理等功能。
微调参数：引入了 reasoning_effort 参数，允许开发者根据任务需求调整模型的推理强度，平衡性能和响应时间。

主要更新和特性

性能提升
- 编码任务：在SWE-bench Verified上的编码结果从41.3提高到48.9。
- 数学任务：在AIME测试中的表现从42跃升至79.2。
- 视觉推理：能够处理用户上传的图像和文件，适用于制造、科学和编码等领域。
结构化输出
- 响应可以可靠地匹配自定义格式（如JSON架构），确保与外部系统交互时的一致性。
函数调用
- 简化了将o1连接到API和数据库的过程，增强了与其他系统的集成能力。
视觉输入处理
- 支持处理用户上传的图像和文件，适用于制造、科学和编码等领域的复杂任务。
微调参数
- reasoning_effort 参数允许开发者控制模型在任务上花费的时间，以平衡性能和响应时间。
Realtime API更新
- WebRTC集成：简化了基于语音的应用程序的构建，支持音频流、噪声抑制和拥塞控制。
- 降价：GPT-4o音频的成本降低了60%，每100万输入令牌的价格为40美元，每100万输出令牌的价格为80美元；缓存音频输入的成本降低了87.5%，现在每100万输入令牌的价格为2.50美元。
- 并发带外响应：允许后台任务（如内容审核）在不中断用户体验的情况下运行。
- 自定义输入上下文：开发者可以关注对话的特定部分，并控制何时触发语音响应，实现更准确和无缝的交互。
偏好微调
- 基于成对比较的方法，教模型哪些响应是首选的，特别适用于主观任务（如摘要、创意写作或语气和风格重要的场景）。
- 早期测试显示，偏好微调帮助模型更好地处理复杂、非分布式的查询，任务准确率提高了5%以上。
新的开发SDKs
- OpenAI扩展了其官方SDK产品，发布了Go和Java的测试版，加入了现有的Python、Node.js和.NET库，使得开发者能够更容易地在更多编程环境中与OpenAI的模型互动。
- Go SDK特别适用于构建可扩展的后端系统，而Java SDK则适用于依赖强类型和健壮生态系统的企业级应用程序。

通过这些更新，OpenAI为开发者提供了一个扩展的工具包，以构建高级、可定制的AI驱动应用程序。o1模型的改进推理能力和Realtime API的增强，结合新的微调选项和开发SDKs，旨在为推动AI集成的企业提供更高的性能和成本效益。无论是构建简化客户支持、优化物流的工具，还是解决具有挑战性的分析问题，o1模型都为开发者提供了强大的支持，帮助他们在AI领域取得更大的突破。

AI·新世界