AI·新世界

Play AI 推出 Play 3.0 mini：更快、更准确的多语言TTS模型

2024年10月20日

文章目录[隐藏]

主要特点
技术优势
应用场景

Play AI 最近推出了一款新的文本到语音（TTS）模型——Play 3.0 mini。这款模型不仅更快、更准确，还支持多种语言，具备流式传输功能，并且成本效益更高。Play 3.0 mini 的推出标志着 Play AI 在推进对话式 AI 技术和提升用户体验方面的又一重要里程碑。

官网：https://play.ai
API：https://docs.play.ht/reference/api-getting-started
Playground：https://www.play.ht/playground

主要特点

更快的处理速度
- 平均延迟：Play 3.0 mini 实现了 143 毫秒的平均延迟，使其成为 Play AI 目前最快的 TTS 模型。
- 推理速度：相比 Play 2.0，3.0 mini 的推理速度快了 28%。
更高的准确性
- 语音克隆：Play 3.0 mini 在语音克隆方面实现了最佳的语音相似性，确保准确再现克隆语音的口音、语调和语调。
- 减少幻觉：模型在生成语音时减少了额外的或遗漏的单词和数字，提高了输出音频的准确性。
多语言支持
- 支持语言：Play 3.0 mini 支持超过 30 种语言，包括英语、日语、印地语、阿拉伯语、西班牙语、意大利语、德语、法语、葡萄牙语等。
- 多种声音选项：许多语言提供了多个男性和女性语音选项，提供更多选择。
流式传输支持
- 输入和输出：支持从大语言模型（LLM）输入文本流和输出音频流。
- API 支持：可以通过 Play AI 的 HTTP REST API、websockets API 或 SDK 使用。
成本效益
- 降价：Play AI 降低了高容量 Startup 和 Growth 层级的定价，并引入了新的 Pro 层级，每月仅需 49 美元，适用于需求较小的企业。

如果视频无法播放，点击这里试试

技术优势

低延迟和高可靠性
- 延迟：143 毫秒的平均延迟，非常适合实时应用程序。
- 可靠性：显著提高了音频质量，确保可靠的使用体验。
自然度和语音质量
- 语音自然度：Play 3.0 mini 在语音自然度方面表现出色，生成的语音听起来更加真实和自然。
- 减少幻觉：通过减少生成音频中的额外或遗漏内容，提高了语音的准确性和可靠性。
多语言和多声音选项
- 广泛的语言支持：支持超过 30 种语言，满足全球用户的需求。
- 多种声音选项：提供多种男性和女性语音选项，增加个性化体验。
流式传输和 API 支持
- 流式传输：支持从 LLM 输入文本流和输出音频流，适用于实时交互式应用。
- API 支持：提供多种 API 接口，方便开发者集成到各种应用中。

应用场景

客户服务：通过生成自然的语音，提高客户服务质量。
教育：用于在线课程和教育应用，提供多语言支持。
娱乐：用于游戏和虚拟现实应用，提供丰富的语音交互体验。
智能家居：用于智能音箱和家庭自动化设备，提供语音控制功能。

Play 3.0 mini 的推出展示了 Play AI 在文本到语音技术领域的持续创新和进步。通过更快的处理速度、更高的准确性、多语言支持和流式传输功能，Play 3.0 mini 为开发者和企业提供了强大的工具，助力他们在各种应用场景中实现更高质量的语音交互。无论是客户服务、教育、娱乐还是智能家居，Play 3.0 mini 都能提供卓越的用户体验。

Play AI 推出 Play 3.0 mini：更快、更准确的多语言TTS模型

主要特点

技术优势

应用场景

相关文章