在AI领域,要说到对开源最积极的大公司那就一定是Meta,之前已经给大家分享过Meta开源的「Segment Anything」、「Magic Copy 」、「Animated Drawings」、「MusicGen」等,今天再给大家介绍一款Meta在昨天正式开源的能够翻译和转录数十种语言的人工智能模型「SeamlessM4T」 ,目前Meta已经将代码与数据集SeamlessAlign 一同释出,Meta表示它代表了人工智能驱动的“语音到语音”和“语音到文本”领域的“重大突破”。
官方新闻地址:https://ai.meta.com/blog/seamless-m4t
GitHub地址:https://github.com/facebookresearch/seamless_communication
「SeamlessM4T」可以在近 100 种语言之间进行文本到语音的翻译,并支持 35 种语言的完全语音到语音翻译。「SeamlessM4T」以 CC BY-NC 4.0的形式向公众免费提供该模型(仅限非商业用途),以便研究人员和开发人员在此基础上开展工作。Meta 释出的 SeamlessAlign 元数据是迄今为止最大的开放多模式翻译数据集,挖掘的语音和文本对齐总计达 270000 小时。
- 近 100 种语言的语音识别。
- 近 100 种输入和输出语言的语音到文本翻译。
- 支持近 100 种输入语言和 36 种输出语言的语音到语音翻译。
- 支持近 100 种语言的文本到文本翻译。
- 支持近 100 种输入语言和 35 种输出语言的文本到语音翻译。
Meta释出了两个模型,SeamlessM4T-Large模型11.4G,seamless-m4t-medium 模型6.84G,从模型大小来看8G以下显卡就不要在本地尝试了,因此还是建议大家使用官方释出的Demo
如何使用SeamlessM4T?
目前官方开放了两个试玩Demo,一个是它们的官网,一个是Hugging;
1、首先打开官方页面后,点击【START DEMO】录制一段声音,因此需要你有麦克风
录制完毕后,即可选择要翻译的语言,我选择了英语、日语和韩语
但我测试了几次,有不少次识别率很糟糕,录制声音尽量慢一点读音准确一点,这样识别率就会变高,而翻译的也十分准确
2、官方还在 Hugging Face space上释出了Demo,可试用的功能更多,目前支持语音对语音翻译、语音转文本翻译、文本转语音翻译、文本转文本翻译以及自动语音识别
上传语音或者使用麦克风录制语音,选择目标语言,然后就可以点击【Translate】进行翻译,15秒的音频使用了近150秒才翻译完成;试听效果后,中文语音翻译成韩语准确率很差,换成英语后准确率就很好,因此建议大家还是不要尝试小语种
音频转换成文本识别率很好,小编上传的这段识别率100%
3、目前已经有网友制作出了Colab版本,大家可以在谷歌Colab进行安装试用SeamlessM4T
结语
目前SeamlessM4T在语音对语音翻译(大语种)、语音转文本翻译、文本转文本翻译以及自动语音识别方面表现不错,但在文本转语音(中文)方面表现很差,大家也可以去试试,如果你的显卡够好也可以在本地安装进行测试。