你也可以成为音乐家！Stability AI推出AI音乐AI工具「Stable Audio」，输入提示词可生成最长 90 秒音频

文章目录[隐藏]

[t-success icon='']Stable Audio[/t-success]
[t-success icon='']如何使用Stable Audio？[/t-success]
[t-success icon='']结语[/t-success]

Stability AI之前已经推出了文字生成图像模型Stable Diffusion、大语言模型StableLM，官方又在本周推出了文字生成音乐模型Stable Audio，可以基于用户输入的文本内容，自动生成音乐或者音频。与之前谷歌的MusicLM与Meta的音乐生成模型MusicGen相似，今天就一起来看看吧！

官网地址：https://stableaudio.com

[t-success icon='']Stable Audio[/t-success]

Stable Audio是由Stability AI旗下生成式声音研究实验室Harmonai开发，利用由AudioSparx所提供的80万个音频文件组成的数据集进行训练，涵盖音乐、音效、各种乐器，以及相对应的文本元数据等，总长超过1.9万个小时。Stability AI表示一般的声音扩散模型通常是在较长音频文件中随机裁剪的声音区块进行训练，可能导致所生成的音乐缺乏头尾，但Stable Audio架构同时基于文字，以及音频文件的持续及开始时间，而让该模型得以控制所生成声音的内容与长度。

【2023 年 9 月 14 日 AI 晚报】Stability AI 推出 Stable Audio；Adobe 宣布“萤火虫”AI 全面投入商用

Stable Audio模型利用最新的扩散取样技术，在英伟达A100 GPU上以44.1 kHz的取样速度，不到1秒就能渲染95秒的立体声。Stable Audio目前提供免费与Pro付费版，免费版每月可免费生成20次、最长45秒的声音或音乐，而若每月支付12美元，则可生成500次，最长90秒的音频。官方之后也会将Stable Audio进行开源。（官方说明）