OpenAI 在今年5月发布的 GPT-4o 中引入了高级语音功能,该功能可以在短短232毫秒内响应音频输入,平均响应时间为320毫秒,接近人类对话的响应速度。
经过几个月的延迟,OpenAI 于9月开始在美国为 ChatGPT Plus 和 ChatGPT 团队订阅者推出高级语音模式。最近,OpenAI 进一步扩展了这一功能的覆盖范围。
拓展到欧盟用户
覆盖地区:
- ChatGPT 高级语音模式现在对欧盟、瑞士、冰岛、挪威和列支敦士登的所有 ChatGPT Plus 和团队用户可用。
使用方法:
- 用户需要在支持地区的 Google Play 商店和 Apple App Store 下载最新版本的 ChatGPT 应用。
桌面应用支持
平台:
- OpenAI 还宣布了 macOS 和 Windows 上 ChatGPT 桌面应用的高级语音模式可用性。
使用限制:
- OpenAI 对高级语音功能的使用有每日限制,即使在桌面上也是如此。ChatGPT 应用将在你当天剩余15分钟高级语音使用时间时通知你。
最新改进
新语音:
- 支持五种新语音:Arbor、Maple、Sol、Spruce 和 Vale。
自定义指令:
- 用户可以设置自定义指令并要求 ChatGPT 记住对话以供日后参考。
多语言支持:
- 在支持的外语中,整体对话速度、流畅度和口音有所改进。
实时API
DevDay 2024:
- OpenAI 在 DevDay 2024 上宣布了实时API,这将允许开发者创建类似于 ChatGPT 高级语音模式的语音体验。
定价:
- 实时API文本输入令牌每百万5美元,输出令牌每百万20美元。
- 音频输入每百万100美元,输出每百万200美元。
随着高级语音模式的扩展和实时API的引入,OpenAI 在对话式AI方面取得了重大进展,为更多互动和可访问的AI体验铺平了道路。这些新功能不仅提升了用户的交互体验,还为开发者提供了强大的工具,以创建更加智能和自然的语音应用。无论是在企业环境中还是日常生活中,这些进步都预示着AI技术的未来发展方向。