OpenAI 今天宣布对其 Realtime API 进行了一系列更新,这些更新旨在增强语音转语音应用的功能,并降低使用成本。Realtime API 目前仍处于测试阶段,但已经吸引了不少开发者的关注。
新增语音选项
此次更新为 Realtime API 增加了五种新的语音选项,使开发者可以构建更加多样化和个性化的应用。OpenAI 在 X 平台上展示了其中三种新语音:Ash、Verse 和带有英国口音的 Ballad。这些新语音不仅更容易操控,而且更具表现力,为用户提供更加自然和真实的听觉体验。
性能和成本优化
- 低延迟和细致输出:OpenAI 表示,原生语音转语音功能通过跳过中间的文本格式,实现了低延迟和细致的输出。
- 缓存提示降价:为了降低使用成本,OpenAI 引入了提示缓存机制。缓存的文本输入将降价50%,缓存的音频输入将打八折。这将显著减少频繁请求的上下文和提示所需的成本。
技术挑战
尽管 Realtime API 带来了许多新功能,但 OpenAI 也提醒用户,由于该 API 仍处于测试阶段,可能存在一些技术挑战:
- 网络影响:网络状况对实时音频传输有较大影响,不可预测的网络状况可能导致音频传输不稳定。
- 客户端认证:目前,Realtime API 尚不支持客户端认证,这可能会影响某些应用场景的安全性。
语音转语音的应用场景
语音转语音技术在多个领域具有广泛应用前景:
- 客户服务:企业可以使用语音转语音功能构建更实时的客户服务平台,提高响应速度和用户体验。
- 虚拟助手:语音转语音可以用于构建更加自然和互动的虚拟助手,提供更加人性化的交互体验。
- 内容创作:用户可以通过语音转语音生成配音,用于视频制作、播客等多种内容创作场景。
历史背景和争议
OpenAI 在语音和声音技术方面一直备受关注,但也面临一些争议:
- Voice Engine:今年3月,OpenAI 发布了语音克隆平台 Voice Engine,但仅限于少数研究人员访问。
- GPT-4o 和 Sky 语音:5月,公司在演示 GPT-4o 和语音模式时,因女演员斯嘉丽·约翰逊对其声音相似性的抗议而暂停使用 Sky 语音。
- ChatGPT 高级语音模式:9月,OpenAI 为付费订阅用户在美国推出了 ChatGPT 高级语音模式。
竞争对手
OpenAI 并不是唯一一家推出语音转语音技术的公司。其他竞争对手如 ElevenLabs 和 Replica 也提供了类似的功能。Anthropic 也在8月为 Claude 3.5 Sonnet 推出了提示缓存功能。