AI·新世界

OpenAI首席执行官Sam Altman表示，计算能力的缺乏导致公司的产品延迟推出

2024年11月1日

/

文章目录[隐藏]

计算能力的限制
高级语音模式（Advanced Voice Mode）
下一代图像生成器 DALL-E
视频生成工具 Sora
NSWF 内容和未来发展

在 Reddit 的一次 AMA（Ask Me Anything）活动中，OpenAI 的首席执行官 Sam Altman 承认，计算能力的不足是阻止公司像希望的那样频繁推出产品的主要因素。以下是此次活动的一些关键点：

计算能力的限制

模型复杂性：
- Altman 表示：“所有这些模型都变得非常复杂。我们在如何将计算资源分配给许多伟大的想法上，也面临着很多限制和艰难的决策。”
基础设施挑战：
- 许多报告显示，OpenAI 一直难以获得足够的计算基础设施来运行和训练其生成模型。
- 路透社援引消息人士的话称，OpenAI 已经与 Broadcom 合作了几个月，研发一款用于运行模型的人工智能芯片，该芯片可能最早在2026年问世。

高级语音模式（Advanced Voice Mode）

视觉能力推迟：
- 由于计算能力紧张，Altman 表示，OpenAI 为 ChatGPT 开发的听起来很真实的对话功能——高级语音模式，不会很快获得今年4月首次预告的视觉能力。
- 在4月的新闻发布会上，OpenAI 展示了 ChatGPT 应用程序在智能手机上运行，并回应手机摄像头视野内的物体，比如某人的衣服。
- 后来的报道透露，这个演示是为了抢在同期举行的谷歌 I/O 开发者大会的风头而匆忙准备的。许多 OpenAI 内部人士认为 GPT-4o 还没有准备好公开亮相——颇具讽刺意味的是，仅语音版的高级语音模式被推迟了好几个月。

下一代图像生成器 DALL-E

没有发布时间表：
- Altman 暗示 OpenAI 的下一代图像生成器 DALL-E 没有发布时间表，他表示：“我们还没有发布计划。”

视频生成工具 Sora

技术挑战：
- OpenAI 的视频生成工具 Sora 由于“需要完善模型，确保安全/模仿/其他事项的正确性，以及扩大计算规模”，被推迟了。
- 据报道，Sora 遭遇了技术挫折，使其在与 Luma、Runway 等竞争对手的系统相比时处于不利地位。据 The Information 报道，今年2月公布的原始系统需要超过10分钟的处理时间才能制作出1分钟的视频片段。
- 10月，Sora 的联合负责人之一 Tim Brooks 离开了 OpenAI，加入了谷歌。

NSWF 内容和未来发展

NSWF 内容：
- 在 AMA 活动后期，Altman 表示 OpenAI 仍在考虑有朝一日允许在 ChatGPT 中包含“NSWF”（不适合工作场合）内容。他写道：“我们完全相信应该像对待成年人一样对待成年用户。”
重点发展领域：
- Altman 表示公司的首要任务是改进其 o1 系列的“推理”模型及其后续产品。
- OpenAI 在本周在伦敦举行的 DevDay 会议上预览了即将加入 o1 的许多功能，包括图像理解。
未来更新：
- Altman 写道：“今年晚些时候，我们将发布一些非常好的更新。不过，我们不会称之为 GPT-5。”

相关文章