近年来,文本到语音(TTS)合成领域取得了快速进展,但仍面临诸多挑战。传统的TTS模型通常依赖于复杂的架构,包括深度神经网络和专门的模块,如声码器、文本分析器和其他适配器,以合成逼真的人类语音。这些复杂性使得TTS系统资源密集,限制了它们的适应性和可访问性,尤其是在设备上的应用。此外,当前的方法通常需要大量数据进行训练,并且在声音克隆或适应方面缺乏灵活性,阻碍了个性化用例的发展。这些方法的繁琐性和对多功能高效语音合成的日益增长的需求促使研究人员探索创新替代方案。
OuteTTS-0.1-350M:简化TTS的新方法
Oute AI最近发布了OuteTTS-0.1-350M,这是一种利用纯语言建模进行文本到语音合成的新方法,无需外部适配器或复杂架构。这个新模型通过在一个连贯的框架中整合文本和音频合成,引入了一种简化和有效的方式来生成自然语音。
- 模型:https://huggingface.co/OuteAI/OuteTTS-0.1-350M
- GitHub:https://github.com/edwko/OuteTTS
- Demo:https://huggingface.co/spaces/OuteAI/OuteTTS-0.1-350M-Demo
技术细节和优势
- 纯语言建模方法:
- 架构:基于LLaMa架构,OuteTTS-0.1-350M直接使用音频标记,而不依赖于专门的TTS声码器或复杂的中间步骤。
- 音频标记化:使用WavTokenizer每秒生成75个音频标记,使音频能够高效转换为模型可以理解和生成的标记序列。
- 对齐:使用连接主义时间分类(CTC)进行词到音频标记的强制对齐。
- 结构化提示:创建包含转录、持续时间和音频标记的结构化提示,使模型能够有效地生成语音。
- 零样本声音克隆:
- 能力:OuteTTS-0.1-350M具备零样本声音克隆能力,能够仅使用几秒钟的参考音频来模仿新声音,这在个性化TTS应用中是一项突破性的进展。
- 设备上性能:
- 兼容性:与llama.cpp兼容,确保了OuteTTS可以在设备上有效运行,提供实时语音生成,无需云服务。
- 低延迟:模型的轻量级设计使其能够在资源受限的设备上运行,提供低延迟的语音合成。
- 高效性:
- 参数规模:尽管仅有3.5亿参数,OuteTTS-0.1-350M在与更大、更复杂的TTS系统竞争中表现出色。
- 计算成本:采用基于LLaMa的架构使模型能够将语音生成任务表示为类似于文本生成的任务,从而大幅降低模型复杂性和计算成本。
为什么OuteTTS-0.1-350M重要
- 民主化TTS技术:
- 易用性:通过使TTS技术易于访问、高效和易于使用,OuteTTS-0.1-350M使其民主化。
- 减少依赖:与需要大量预处理和特定硬件能力的传统模型不同,该模型的纯语言建模方法减少了对外部组件的依赖,从而简化了部署。
- 零样本声音克隆:
- 个性化应用:零样本声音克隆能力使用户能够使用最少的数据创建自定义声音,为个性化助手、有声读物和内容本地化等应用打开了大门。
- 广泛适用性:
- 多样化应用:该模型的可访问性和效率使其适用于广泛的应用,包括个性化助手、有声读物和内容本地化。
- 实时应用:设计用于设备上的性能,使其非常适合实时应用。
- 开源许可:
- 自由实验:在CC-BY许可下发布,为开发者自由实验和将其集成到各种项目中铺平了道路。
总之,OuteTTS-0.1-350M标志着文本到语音技术的一大进步,利用简化的架构以最小的计算需求提供高质量的语音合成。其整合LLaMa架构、使用WavTokenizer以及无需复杂适配器即可进行零样本声音克隆的能力使其与传统TTS模型区别开来。
凭借其在设备上的性能能力,该模型可能彻底改变可访问性、个性化和人机交互中的应用,使先进的TTS技术更广泛地普及。Oute AI的发布不仅突显了纯语言建模在音频生成中的力量,还为TTS技术的进一步发展开辟了新的可能性。随着研究社区继续探索和扩展这一工作,像OuteTTS-0.1-350M这样的模型可能会为更智能、更高效的语音合成系统铺平道路。
发表回复