文章目录[隐藏]
AI目前已经能做的事情非常多了,问答问题、写文章、画画样样行,近期谷歌和Meta都发布了AI音乐生成模型,不同于谷歌的MusicLM,Meta选择直接在Github 上开源了MusicGen,该模型基于谷歌 2017 年推出的 Transformer 模型,MusicGen 主要用于音乐生成,它可以将文本和已有的旋律转化为完整乐曲。
[t-success icon='']MusicGen[/t-success]
Meta AI团队表示:“我们使用了 20000 小时的授权音乐来对训练该模型,并采用 Meta 的 EnCodec 编码器将音频数据分解为更小的单元进行并行处理,进而让 MusicGen 的运算效率和生成速度都比同类型 AI 模型更为出色。” MusicGen 还支持文本与旋律的组合输入,例如你可以提出生成“一首轻快的曲目”并同时要求“将它与贝多芬的《欢乐颂》结合起来”。研发团队还对 MusicGen 的实际表现进行了测试。结果显示,与谷歌的 MusicLM 以及 Riffusion、Mousai、Noise2Music 等其他音乐模型相比,MusicGen 在测试音乐与文本提示的匹配度以及作曲的可信度等指标上表现更好,总体而言略高于谷歌 MusicLM 的水平。
论文地址:https://arxiv.org/pdf/2306.05284.pdf
不同音乐生成模型对比:https://ai.honu.io/papers/musicgen
[t-success icon='']如何使用MusicGen?[/t-success]
MusicGen在GitHub开源了Audiocraft,Audiocraft为一针对声音生成而打造的PyTorch深度学习函数库,提供代码及模型予MusicGen,允许使用者透过文字或辅以既有的音乐片段来创造自己的音乐。目前Meta AI官方提供了多种方法让大家体验MusicGen,如果要安装在自己的电脑上,那就必须要安装Python 3.9与PyTorch 2.0.0,以及至少具备16GB显存的显卡。
1、官方演示
Meta AI官方为大家提供了官方演示,让大家可以试用,官方演示中去掉了一些设置项,大家只需要输入提示词就可以生成音乐或者上传自己的音乐后使用提示词生成相似音乐。
其中模型:
- small: 300M 大小模型, 仅限文本生成音乐
- medium: 1.5B 大小模型, 仅限文本生成音乐
- melody: 1.5B 大小模型, 文本生成音乐和文字+旋律转音乐
- large: 3.3B 大小模型, 仅限文本生成音乐
2、Google Colab(推荐)
官方也为大家提供了Google Colab一键安装笔记,让大家可以在Google Colab上体验MusicGen,当然前提是你拥有谷歌账号和科学上网环境,目前Colab上的MusicGen可以生成2分钟时长的音乐,相比官方演示要长不少,还可以进行一些设置。
地址:https://colab.research.google.com/drive/1-Xe9NCdIs2sCUbiSmwHXozK6AAhMm7_i?usp=sharing
👇界面与官方演示不同,多了一些设置项
👇输入提示词后就可以选择时长,然后生成音乐;目前提示词只支持英文,你也可以上传音乐然后输入提示词生成相似音乐
3、本机安装
开源项目当然可以在自己的电脑安装,只是该模型对于电脑配置要求比较高,你的显卡至少是12G显存小编才推荐你进行尝试,因为要使用完整体验MusicGen那么最少需要16G显存才可以,那样就只有英伟达3090、4080和4090显卡可以满足。如果你看不懂官方GitHub页面提供的安装教程,官方还贴心的为大家分享了高手制作的安装教程。
如果上面的安装教程你还是觉得麻烦,B站UP主[青龙圣者]也为大家制作了懒人版,让大家可以一键安装,大家可以自行下载进行体验:
[t-success icon='']结语[/t-success]
Meta近期已经连续开源了多个AI模型,相对于微软和谷歌可以说是非常慷慨,MusicGen还在不断进行优化和进化,从最初释出时只能生成30秒音乐到现在已经可以生成2分钟,使用此工具大家完全可以根据自己的想法来生成音乐,也不用担心版权问题。