Fish Agent:由 FishAudio 推出的一款无需编解码的语音到语音模型,集成了 ASR 和 TTS 功能

Fish Agent 是由 FishAudio 推出的一款无需编解码的语音到语音模型,它集成了 ASR 和 TTS 功能,实现了真正的端到端语音处理,类似于 ChatGPT 的高级语音模式,该模型基于70万小时的多语言音频内容训练而成。

目前正处于测试阶段,官方已经释出一款模型Fish Agent V0.1 3B,该模型是基于Qwen-2.5-3B-Instruct继续预训练的版本,使用了2000亿语音和文本标记。

它最大的特点在于:

  • 端到端语音处理: 集成了语音识别(ASR)和语音合成(TTS)功能,实现了一站式语音处理,就像ChatGPT在文本领域的地位一样。
  • 无需语义标记: 采用独特的架构,摆脱了传统模型对语义编码器/解码器的依赖,简化了模型结构。
  • 海量数据训练: 基于70万小时的多语言音频数据进行训练,覆盖英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语等多种语言。

Fish Agent能做什么?

  • 语音转换: 将一种语言的语音实时转换为另一种语言,实现跨语言交流。
  • 语音编辑: 对语音进行修改、剪辑和拼接,满足个性化需求。
  • 语音合成: 将文本转换为自然流畅的语音,广泛应用于语音助手、有声书等领域。

技术亮点

  • 基于Qwen-2.5-3B-Instruct: 模型在强大的基础模型上进行进一步训练,性能更优。
  • 海量数据: 70万小时的训练数据保证了模型的鲁棒性和泛化能力。
  • 多语言支持: 覆盖全球主要语言,满足多样化的需求。
我们将24小时内回复。
取消