Play AI 推出 Play 3.0 mini:更快、更准确的多语言TTS模型

文章目录[隐藏]

Play AI 最近推出了一款新的文本到语音(TTS)模型——Play 3.0 mini。这款模型不仅更快、更准确,还支持多种语言,具备流式传输功能,并且成本效益更高。Play 3.0 mini 的推出标志着 Play AI 在推进对话式 AI 技术和提升用户体验方面的又一重要里程碑。

主要特点

  1. 更快的处理速度
    • 平均延迟:Play 3.0 mini 实现了 143 毫秒的平均延迟,使其成为 Play AI 目前最快的 TTS 模型。
    • 推理速度:相比 Play 2.0,3.0 mini 的推理速度快了 28%。
  2. 更高的准确性
    • 语音克隆:Play 3.0 mini 在语音克隆方面实现了最佳的语音相似性,确保准确再现克隆语音的口音、语调和语调。
    • 减少幻觉:模型在生成语音时减少了额外的或遗漏的单词和数字,提高了输出音频的准确性。
  3. 多语言支持
    • 支持语言:Play 3.0 mini 支持超过 30 种语言,包括英语、日语、印地语、阿拉伯语、西班牙语、意大利语、德语、法语、葡萄牙语等。
    • 多种声音选项:许多语言提供了多个男性和女性语音选项,提供更多选择。
  4. 流式传输支持
    • 输入和输出:支持从大语言模型(LLM)输入文本流和输出音频流。
    • API 支持:可以通过 Play AI 的 HTTP REST API、websockets API 或 SDK 使用。
  5. 成本效益
    • 降价:Play AI 降低了高容量 Startup 和 Growth 层级的定价,并引入了新的 Pro 层级,每月仅需 49 美元,适用于需求较小的企业。

技术优势

  1. 低延迟和高可靠性
    • 延迟:143 毫秒的平均延迟,非常适合实时应用程序。
    • 可靠性:显著提高了音频质量,确保可靠的使用体验。
  2. 自然度和语音质量
    • 语音自然度:Play 3.0 mini 在语音自然度方面表现出色,生成的语音听起来更加真实和自然。
    • 减少幻觉:通过减少生成音频中的额外或遗漏内容,提高了语音的准确性和可靠性。
  3. 多语言和多声音选项
    • 广泛的语言支持:支持超过 30 种语言,满足全球用户的需求。
    • 多种声音选项:提供多种男性和女性语音选项,增加个性化体验。
  4. 流式传输和 API 支持
    • 流式传输:支持从 LLM 输入文本流和输出音频流,适用于实时交互式应用。
    • API 支持:提供多种 API 接口,方便开发者集成到各种应用中。

应用场景

  1. 客户服务:通过生成自然的语音,提高客户服务质量。
  2. 教育:用于在线课程和教育应用,提供多语言支持。
  3. 娱乐:用于游戏和虚拟现实应用,提供丰富的语音交互体验。
  4. 智能家居:用于智能音箱和家庭自动化设备,提供语音控制功能。

Play 3.0 mini 的推出展示了 Play AI 在文本到语音技术领域的持续创新和进步。通过更快的处理速度、更高的准确性、多语言支持和流式传输功能,Play 3.0 mini 为开发者和企业提供了强大的工具,助力他们在各种应用场景中实现更高质量的语音交互。无论是客户服务、教育、娱乐还是智能家居,Play 3.0 mini 都能提供卓越的用户体验。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

我们将24小时内回复。
取消