在 Reddit 的一次 AMA(Ask Me Anything)活动中,OpenAI 的首席执行官 Sam Altman 承认,计算能力的不足是阻止公司像希望的那样频繁推出产品的主要因素。以下是此次活动的一些关键点:
计算能力的限制
- 模型复杂性:
- Altman 表示:“所有这些模型都变得非常复杂。我们在如何将计算资源分配给许多伟大的想法上,也面临着很多限制和艰难的决策。”
- 基础设施挑战:
- 许多报告显示,OpenAI 一直难以获得足够的计算基础设施来运行和训练其生成模型。
- 路透社援引消息人士的话称,OpenAI 已经与 Broadcom 合作了几个月,研发一款用于运行模型的人工智能芯片,该芯片可能最早在2026年问世。
高级语音模式(Advanced Voice Mode)
- 视觉能力推迟:
- 由于计算能力紧张,Altman 表示,OpenAI 为 ChatGPT 开发的听起来很真实的对话功能——高级语音模式,不会很快获得今年4月首次预告的视觉能力。
- 在4月的新闻发布会上,OpenAI 展示了 ChatGPT 应用程序在智能手机上运行,并回应手机摄像头视野内的物体,比如某人的衣服。
- 后来的报道透露,这个演示是为了抢在同期举行的谷歌 I/O 开发者大会的风头而匆忙准备的。许多 OpenAI 内部人士认为 GPT-4o 还没有准备好公开亮相——颇具讽刺意味的是,仅语音版的高级语音模式被推迟了好几个月。
下一代图像生成器 DALL-E
- 没有发布时间表:
- Altman 暗示 OpenAI 的下一代图像生成器 DALL-E 没有发布时间表,他表示:“我们还没有发布计划。”
视频生成工具 Sora
- 技术挑战:
- OpenAI 的视频生成工具 Sora 由于“需要完善模型,确保安全/模仿/其他事项的正确性,以及扩大计算规模”,被推迟了。
- 据报道,Sora 遭遇了技术挫折,使其在与 Luma、Runway 等竞争对手的系统相比时处于不利地位。据 The Information 报道,今年2月公布的原始系统需要超过10分钟的处理时间才能制作出1分钟的视频片段。
- 10月,Sora 的联合负责人之一 Tim Brooks 离开了 OpenAI,加入了谷歌。
NSWF 内容和未来发展
- NSWF 内容:
- 在 AMA 活动后期,Altman 表示 OpenAI 仍在考虑有朝一日允许在 ChatGPT 中包含“NSWF”(不适合工作场合)内容。他写道:“我们完全相信应该像对待成年人一样对待成年用户。”
- 重点发展领域:
- Altman 表示公司的首要任务是改进其 o1 系列的“推理”模型及其后续产品。
- OpenAI 在本周在伦敦举行的 DevDay 会议上预览了即将加入 o1 的许多功能,包括图像理解。
- 未来更新:
- Altman 写道:“今年晚些时候,我们将发布一些非常好的更新。不过,我们不会称之为 GPT-5。”