Hume AI 推出“Voice Control”：无需编码即可定制AI语音

文章目录[隐藏]

基于EVI 2的创新
从预设AI语音到定制化解决方案
解决AI行业的关键痛点
情感科学驱动的产品开发
开发者工具
在竞争激烈的市场中脱颖而出

Hume AI，一家专注于情感智能语音界面的初创公司，推出了名为“Voice Control”的实验性功能。这一工具允许开发者和用户通过精确调节声音特征来创建自定义的AI语音，而无需编写代码、进行AI提示工程或具备声音设计技能。

地址：https://platform.hume.ai
官方介绍：https://www.hume.ai/blog/introducing-voice-control

基于EVI 2的创新

此次发布建立在Hume之前推出的Empathic Voice Interface 2 (EVI 2)的基础上。EVI 2引入了自然度、情感响应和定制化方面的先进功能，为用户提供更加细腻和人性化的语音交互体验。EVI 2和Voice Control都避免了声音克隆的风险，Hume的联合创始人Alan Cowen曾指出，声音克隆在伦理和实际操作上存在挑战。相反，Hume专注于提供创建独特、富有表现力的语音工具，以满足用户需求，如客服聊天机器人、数字助手、导师、指南或无障碍功能。

从预设AI语音到定制化解决方案

Voice Control允许开发者在10个不同的维度上调整声音，这些维度包括：

阳刚/阴柔：性别的发声，介于更阳刚和更阴柔之间。
果断性：声音的坚定程度，介于胆怯和大胆之间。
活力：声音的密度，介于消沉和活跃之间。
自信：声音的确定性，介于害羞和自信之间。
热情：声音中的兴奋程度，介于平静和热情之间。
鼻音：声音的开放程度，介于清晰和鼻音之间。
放松度：声音中的压力，介于紧张和放松之间。
平滑度：声音的质感，介于平滑和断续之间。
温度：声音背后的活力，介于温吞和有力之间。
紧密度：声音的包容性，介于紧绷和轻松之间。

这个无代码工具允许用户通过虚拟屏幕上的滑块实时微调声音属性。目前，它可以在Hume的虚拟游乐场中使用，用户需要免费注册才能访问。

解决AI行业的关键痛点

这次发布解决了AI行业的一个关键痛点：对预设语音的依赖。这些预设语音往往无法满足品牌或应用的特定需求，或者与声音克隆相关的风险。通过Voice Control，Hume为开发者提供了更大的灵活性和控制权，使他们能够创建符合特定场景和用户需求的定制化语音。

情感科学驱动的产品开发

Hume的研究驱动方法在其产品开发中扮演着核心角色。这家由前Google DeepMind研究员Alan Cowen共同创立的公司，利用了一种基于跨文化声音录音与情感调查数据相结合的专有模型。这种方法植根于情感科学，构成了EVI 2和刚刚推出的Voice Control的支柱。Voice Control通过解决人类对声音的细微、往往是难以言喻的感知方式，扩展了这些原则。该工具的滑块界面反映了声音的常见感知属性，如活力或果断性，而无需尝试通过基于文本的提示来简化这些属性。

开发者工具

Voice Control目前以beta版本提供，并与Hume的Empathic Voice Interface (EVI)集成，使其适用于广泛的应用。开发者可以选择一个基础声音，调整其特征，并实时预览结果。这个过程确保了会话间的可重复性和稳定性，这对于客服机器人或虚拟助手等实时应用来说是关键特性。

EVI 2的影响在Voice Control的功能中显而易见。早期的模型引入了如会话提示和多语言能力等功能，扩大了语音AI应用的范围。例如，EVI 2支持亚秒级的响应时间，使对话自然且即时。它还允许在互动过程中动态调整说话风格，使其成为企业的多功能工具。

在竞争激烈的市场中脱颖而出

Hume专注于语音定制和情感智能，使其在语音AI领域成为强大的竞争对手，即使面对资金雄厚的对手，如OpenAI的Advanced Voice Mode和ElevenLabs，它们都提供预设语音库。Hume继续在其创新的语音AI方法上发展。扩展Voice Control的计划包括引入额外的可修改维度，细化在极端调整下的声音质量，以及增加可用的基础声音范围。

随着Voice Control的推出，Hume加强了自己作为语音AI创新领导者的地位，提供优先考虑定制化、情感智能和实时适应性的工具。开发者今天就可以通过Hume的平台访问Voice Control，标志着AI驱动语音解决方案演变的又一步。