AI·新世界

OpenAI 更新 Realtime API：增加新语音，降低成本

文章目录[隐藏]

OpenAI 今天宣布对其 Realtime API 进行了一系列更新，这些更新旨在增强语音转语音应用的功能，并降低使用成本。Realtime API 目前仍处于测试阶段，但已经吸引了不少开发者的关注。

此次更新为 Realtime API 增加了五种新的语音选项，使开发者可以构建更加多样化和个性化的应用。OpenAI 在 X 平台上展示了其中三种新语音：Ash、Verse 和带有英国口音的 Ballad。这些新语音不仅更容易操控，而且更具表现力，为用户提供更加自然和真实的听觉体验。

低延迟和细致输出：OpenAI 表示，原生语音转语音功能通过跳过中间的文本格式，实现了低延迟和细致的输出。
缓存提示降价：为了降低使用成本，OpenAI 引入了提示缓存机制。缓存的文本输入将降价50%，缓存的音频输入将打八折。这将显著减少频繁请求的上下文和提示所需的成本。

尽管 Realtime API 带来了许多新功能，但 OpenAI 也提醒用户，由于该 API 仍处于测试阶段，可能存在一些技术挑战：

语音转语音技术在多个领域具有广泛应用前景：

OpenAI 在语音和声音技术方面一直备受关注，但也面临一些争议：

OpenAI 并不是唯一一家推出语音转语音技术的公司。其他竞争对手如 ElevenLabs 和 Replica 也提供了类似的功能。Anthropic 也在8月为 Claude 3.5 Sonnet 推出了提示缓存功能。