超强!Meta推出全新 AI 大模型「SeamlessM4T」 ,可翻译和转录近百种语言

在AI领域,要说到对开源最积极的大公司那就一定是Meta,之前已经给大家分享过Meta开源的「Segment Anything」、「Magic Copy 」、「Animated Drawings」、「MusicGen」等,今天再给大家介绍一款Meta在昨天正式开源的能够翻译和转录数十种语言的人工智能模型「SeamlessM4T」 ,目前Meta已经将代码与数据集SeamlessAlign 一同释出,Meta表示它代表了人工智能驱动的“语音到语音”和“语音到文本”领域的“重大突破”。

官方新闻地址:https://ai.meta.com/blog/seamless-m4t

GitHub地址:https://github.com/facebookresearch/seamless_communication

「SeamlessM4T」可以在近 100 种语言之间进行文本到语音的翻译,并支持 35 种语言的完全语音到语音翻译。「SeamlessM4T」以 CC BY-NC 4.0的形式向公众免费提供该模型(仅限非商业用途),以便研究人员和开发人员在此基础上开展工作。Meta 释出的 SeamlessAlign 元数据是迄今为止最大的开放多模式翻译数据集,挖掘的语音和文本对齐总计达 270000 小时。

  • 近 100 种语言的语音识别。
  • 近 100 种输入和输出语言的语音到文本翻译。
  • 支持近 100 种输入语言和 36 种输出语言的语音到语音翻译。
  • 支持近 100 种语言的文本到文本翻译。
  • 支持近 100 种输入语言和 35 种输出语言的文本到语音翻译。

【2023 年 8 月 22 日 AI 晚报】清华大学联合字节跳动推出全新开源听觉大语言模型 SALMONN;Meta 发布全新 AI 模型 SeamlessM4T

Meta释出了两个模型,SeamlessM4T-Large模型11.4G,seamless-m4t-medium 模型6.84G,从模型大小来看8G以下显卡就不要在本地尝试了,因此还是建议大家使用官方释出的Demo

如何使用SeamlessM4T?

目前官方开放了两个试玩Demo,一个是它们的官网,一个是Hugging;

1、首先打开官方页面后,点击【START DEMO】录制一段声音,因此需要你有麦克风

地址:https://seamless.metademolab.com

录制完毕后,即可选择要翻译的语言,我选择了英语、日语和韩语

但我测试了几次,有不少次识别率很糟糕,录制声音尽量慢一点读音准确一点,这样识别率就会变高,而翻译的也十分准确

2、官方还在 Hugging Face space上释出了Demo,可试用的功能更多,目前支持语音对语音翻译、语音转文本翻译、文本转语音翻译、文本转文本翻译以及自动语音识别

地址:https://huggingface.co/spaces/facebook/seamless_m4t

上传语音或者使用麦克风录制语音,选择目标语言,然后就可以点击【Translate】进行翻译,15秒的音频使用了近150秒才翻译完成;试听效果后,中文语音翻译成韩语准确率很差,换成英语后准确率就很好,因此建议大家还是不要尝试小语种

音频转换成文本识别率很好,小编上传的这段识别率100%

3、目前已经有网友制作出了Colab版本,大家可以在谷歌Colab进行安装试用SeamlessM4T

地址:https://github.com/camenduru/seamless-m4t-colab

结语

目前SeamlessM4T在语音对语音翻译(大语种)、语音转文本翻译、文本转文本翻译以及自动语音识别方面表现不错,但在文本转语音(中文)方面表现很差,大家也可以去试试,如果你的显卡够好也可以在本地安装进行测试。

我们将24小时内回复。
取消