Fish Agent 是由 FishAudio 推出的一款无需编解码的语音到语音模型,它集成了 ASR 和 TTS 功能,实现了真正的端到端语音处理,类似于 ChatGPT 的高级语音模式,该模型基于70万小时的多语言音频内容训练而成。
- 模型:https://huggingface.co/fishaudio/fish-agent-v0.1-3b
- Demo:https://huggingface.co/spaces/fishaudio/fish-agent
目前正处于测试阶段,官方已经释出一款模型Fish Agent V0.1 3B,该模型是基于Qwen-2.5-3B-Instruct继续预训练的版本,使用了2000亿语音和文本标记。
它最大的特点在于:
- 端到端语音处理: 集成了语音识别(ASR)和语音合成(TTS)功能,实现了一站式语音处理,就像ChatGPT在文本领域的地位一样。
- 无需语义标记: 采用独特的架构,摆脱了传统模型对语义编码器/解码器的依赖,简化了模型结构。
- 海量数据训练: 基于70万小时的多语言音频数据进行训练,覆盖英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语等多种语言。
Fish Agent能做什么?
- 语音转换: 将一种语言的语音实时转换为另一种语言,实现跨语言交流。
- 语音编辑: 对语音进行修改、剪辑和拼接,满足个性化需求。
- 语音合成: 将文本转换为自然流畅的语音,广泛应用于语音助手、有声书等领域。
技术亮点
- 基于Qwen-2.5-3B-Instruct: 模型在强大的基础模型上进行进一步训练,性能更优。
- 海量数据: 70万小时的训练数据保证了模型的鲁棒性和泛化能力。
- 多语言支持: 覆盖全球主要语言,满足多样化的需求。
发表回复