AI语音克隆和文本转语音API领域的初创公司ElevenLabs近日宣布了一项新功能,允许用户在其开发者平台上构建具有高度定制性的对话式AI机器人。这一新功能不仅增强了ElevenLabs的服务范围,也为开发者和企业提供了更灵活的对话代理解决方案。
新功能亮点:
- 定制对话代理: 用户可以在ElevenLabs平台上创建完整的对话代理,定制变量包括语音语调、响应长度等。
- 多样化的声音和AI工具: ElevenLabs专注于为文本转语音服务提供多样化的声音和AI工具,满足不同客户的需求。
- 整合知识库: 公司面临的挑战之一是整合知识库和处理客户的打断,这也是ElevenLabs构建对话机器人完整管道的原因。
- 项目创建与模板: 用户可以通过选择模板或创建新项目来开始构建对话代理,定制代理的主要语言、第一条消息和系统提示。
- 语言模型选择: 开发者可以选择不同的大语言模型(如Gemini、GPT或Claude),并调整响应的温度和令牌使用限制。
- 语音、延迟、稳定性调整: 用户可以调整语音、延迟、稳定性、认证标准和与AI代理对话的最大长度等参数。
- 知识库集成: 用户可以添加自己的知识库,如文件、URL或文本块,以支持对话机器人,并集成自定义LLM。
- SDK和WebSocket API: ElevenLabs的SDK兼容Python、JavaScript、React和Swift,同时提供WebSocket API以实现更多定制。
- 数据收集与评估标准: 公司可以定义标准来收集数据项(如客户姓名和电子邮件)以及自然语言的评估标准。
市场竞争与未来展望:
ElevenLabs正在利用其现有的文本转语音管道,并为新的对话式AI产品开发语音转文本功能。虽然目前未将语音转文本API作为独立产品提供,但未来可能会成为谷歌、微软、亚马逊以及OpenAI的Whisper等专业API的竞争对手。
该公司正寻求以超过30亿美元的估值筹集新资金,并与其他语音AI初创公司竞争,如Vapi和Retell。ElevenLabs认为其定制能力和切换模型的能力将使其在竞争中占据优势,特别是在与OpenAI的实时对话API竞争时。