Hume AI,一家专注于情感智能语音界面的初创公司,推出了名为“Voice Control”的实验性功能。这一工具允许开发者和用户通过精确调节声音特征来创建自定义的AI语音,而无需编写代码、进行AI提示工程或具备声音设计技能。
基于EVI 2的创新
此次发布建立在Hume之前推出的Empathic Voice Interface 2 (EVI 2)的基础上。EVI 2引入了自然度、情感响应和定制化方面的先进功能,为用户提供更加细腻和人性化的语音交互体验。EVI 2和Voice Control都避免了声音克隆的风险,Hume的联合创始人Alan Cowen曾指出,声音克隆在伦理和实际操作上存在挑战。相反,Hume专注于提供创建独特、富有表现力的语音工具,以满足用户需求,如客服聊天机器人、数字助手、导师、指南或无障碍功能。
从预设AI语音到定制化解决方案
Voice Control允许开发者在10个不同的维度上调整声音,这些维度包括:
- 阳刚/阴柔:性别的发声,介于更阳刚和更阴柔之间。
- 果断性:声音的坚定程度,介于胆怯和大胆之间。
- 活力:声音的密度,介于消沉和活跃之间。
- 自信:声音的确定性,介于害羞和自信之间。
- 热情:声音中的兴奋程度,介于平静和热情之间。
- 鼻音:声音的开放程度,介于清晰和鼻音之间。
- 放松度:声音中的压力,介于紧张和放松之间。
- 平滑度:声音的质感,介于平滑和断续之间。
- 温度:声音背后的活力,介于温吞和有力之间。
- 紧密度:声音的包容性,介于紧绷和轻松之间。
这个无代码工具允许用户通过虚拟屏幕上的滑块实时微调声音属性。目前,它可以在Hume的虚拟游乐场中使用,用户需要免费注册才能访问。
解决AI行业的关键痛点
这次发布解决了AI行业的一个关键痛点:对预设语音的依赖。这些预设语音往往无法满足品牌或应用的特定需求,或者与声音克隆相关的风险。通过Voice Control,Hume为开发者提供了更大的灵活性和控制权,使他们能够创建符合特定场景和用户需求的定制化语音。
情感科学驱动的产品开发
Hume的研究驱动方法在其产品开发中扮演着核心角色。这家由前Google DeepMind研究员Alan Cowen共同创立的公司,利用了一种基于跨文化声音录音与情感调查数据相结合的专有模型。这种方法植根于情感科学,构成了EVI 2和刚刚推出的Voice Control的支柱。Voice Control通过解决人类对声音的细微、往往是难以言喻的感知方式,扩展了这些原则。该工具的滑块界面反映了声音的常见感知属性,如活力或果断性,而无需尝试通过基于文本的提示来简化这些属性。
开发者工具
Voice Control目前以beta版本提供,并与Hume的Empathic Voice Interface (EVI)集成,使其适用于广泛的应用。开发者可以选择一个基础声音,调整其特征,并实时预览结果。这个过程确保了会话间的可重复性和稳定性,这对于客服机器人或虚拟助手等实时应用来说是关键特性。
EVI 2的影响在Voice Control的功能中显而易见。早期的模型引入了如会话提示和多语言能力等功能,扩大了语音AI应用的范围。例如,EVI 2支持亚秒级的响应时间,使对话自然且即时。它还允许在互动过程中动态调整说话风格,使其成为企业的多功能工具。
在竞争激烈的市场中脱颖而出
Hume专注于语音定制和情感智能,使其在语音AI领域成为强大的竞争对手,即使面对资金雄厚的对手,如OpenAI的Advanced Voice Mode和ElevenLabs,它们都提供预设语音库。Hume继续在其创新的语音AI方法上发展。扩展Voice Control的计划包括引入额外的可修改维度,细化在极端调整下的声音质量,以及增加可用的基础声音范围。
随着Voice Control的推出,Hume加强了自己作为语音AI创新领导者的地位,提供优先考虑定制化、情感智能和实时适应性的工具。开发者今天就可以通过Hume的平台访问Voice Control,标志着AI驱动语音解决方案演变的又一步。