AI·新世界

超强！Meta推出全新 AI 大模型「SeamlessM4T」，可翻译和转录近百种语言

2023年8月23日

/

在AI领域，要说到对开源最积极的大公司那就一定是Meta，之前已经给大家分享过Meta开源的「Segment Anything」、「Magic Copy 」、「Animated Drawings」、「MusicGen」等，今天再给大家介绍一款Meta在昨天正式开源的能够翻译和转录数十种语言的人工智能模型「SeamlessM4T」，目前Meta已经将代码与数据集SeamlessAlign 一同释出，Meta表示它代表了人工智能驱动的“语音到语音”和“语音到文本”领域的“重大突破”。

官方新闻地址：https://ai.meta.com/blog/seamless-m4t

GitHub地址：https://github.com/facebookresearch/seamless_communication

「SeamlessM4T」可以在近 100 种语言之间进行文本到语音的翻译，并支持 35 种语言的完全语音到语音翻译。「SeamlessM4T」以 CC BY-NC 4.0的形式向公众免费提供该模型（仅限非商业用途），以便研究人员和开发人员在此基础上开展工作。Meta 释出的 SeamlessAlign 元数据是迄今为止最大的开放多模式翻译数据集，挖掘的语音和文本对齐总计达 270000 小时。

近 100 种语言的语音识别。
近 100 种输入和输出语言的语音到文本翻译。
支持近 100 种输入语言和 36 种输出语言的语音到语音翻译。
支持近 100 种语言的文本到文本翻译。
支持近 100 种输入语言和 35 种输出语言的文本到语音翻译。

【2023 年 8 月 22 日 AI 晚报】清华大学联合字节跳动推出全新开源听觉大语言模型 SALMONN；Meta 发布全新 AI 模型 SeamlessM4T

Meta释出了两个模型，SeamlessM4T-Large模型11.4G，seamless-m4t-medium 模型6.84G，从模型大小来看8G以下显卡就不要在本地尝试了，因此还是建议大家使用官方释出的Demo

如何使用SeamlessM4T？

目前官方开放了两个试玩Demo，一个是它们的官网，一个是Hugging；

1、首先打开官方页面后，点击【START DEMO】录制一段声音，因此需要你有麦克风

地址：https://seamless.metademolab.com

录制完毕后，即可选择要翻译的语言，我选择了英语、日语和韩语

但我测试了几次，有不少次识别率很糟糕，录制声音尽量慢一点读音准确一点，这样识别率就会变高，而翻译的也十分准确

2、官方还在 Hugging Face space上释出了Demo，可试用的功能更多，目前支持语音对语音翻译、语音转文本翻译、文本转语音翻译、文本转文本翻译以及自动语音识别

地址：https://huggingface.co/spaces/facebook/seamless_m4t

上传语音或者使用麦克风录制语音，选择目标语言，然后就可以点击【Translate】进行翻译，15秒的音频使用了近150秒才翻译完成；试听效果后，中文语音翻译成韩语准确率很差，换成英语后准确率就很好，因此建议大家还是不要尝试小语种

音频转换成文本识别率很好，小编上传的这段识别率100%

3、目前已经有网友制作出了Colab版本，大家可以在谷歌Colab进行安装试用SeamlessM4T

地址：https://github.com/camenduru/seamless-m4t-colab

结语

目前SeamlessM4T在语音对语音翻译（大语种）、语音转文本翻译、文本转文本翻译以及自动语音识别方面表现不错，但在文本转语音（中文）方面表现很差，大家也可以去试试，如果你的显卡够好也可以在本地安装进行测试。

相关文章

我们将24小时内回复。