AI·新世界

Fish Agent:由 FishAudio 推出的一款无需编解码的语音到语音模型，集成了 ASR 和 TTS 功能

2024年11月4日

/

Fish Agent 是由 FishAudio 推出的一款无需编解码的语音到语音模型，它集成了 ASR 和 TTS 功能，实现了真正的端到端语音处理，类似于 ChatGPT 的高级语音模式，该模型基于70万小时的多语言音频内容训练而成。

模型：https://huggingface.co/fishaudio/fish-agent-v0.1-3b
Demo：https://huggingface.co/spaces/fishaudio/fish-agent

目前正处于测试阶段，官方已经释出一款模型Fish Agent V0.1 3B，该模型是基于Qwen-2.5-3B-Instruct继续预训练的版本，使用了2000亿语音和文本标记。

它最大的特点在于：

端到端语音处理： 集成了语音识别（ASR）和语音合成（TTS）功能，实现了一站式语音处理，就像ChatGPT在文本领域的地位一样。
无需语义标记： 采用独特的架构，摆脱了传统模型对语义编码器/解码器的依赖，简化了模型结构。
海量数据训练： 基于70万小时的多语言音频数据进行训练，覆盖英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语等多种语言。

Fish Agent能做什么？

语音转换： 将一种语言的语音实时转换为另一种语言，实现跨语言交流。
语音编辑： 对语音进行修改、剪辑和拼接，满足个性化需求。
语音合成： 将文本转换为自然流畅的语音，广泛应用于语音助手、有声书等领域。

技术亮点

基于Qwen-2.5-3B-Instruct： 模型在强大的基础模型上进行进一步训练，性能更优。
海量数据： 70万小时的训练数据保证了模型的鲁棒性和泛化能力。
多语言支持： 覆盖全球主要语言，满足多样化的需求。

相关文章