行业前沿 | 谷歌发布AI前沿成果MusicLM，生成式AI迎来爆发

“继ChatGPT之后，音乐或将成为AI内容生成的前沿领域。

【资料图】

作者：飞飞|

编辑：唐诗 |

当地时间1月27日，谷歌发布全新AI模型——MusicLM。通过AI模型MusicLM，文字可以直接生成高保真的音乐。

这是继文字生成AI模型Wordcraft、视频生成工具Imagen Video之后，谷歌又一次推出生成式AI模型工具，这一次谷歌将目标瞄准了音乐领域。

透过MusicLM，不难看到，这两年生成式AI赛道正在迎来爆发。

MusicLM 挑战更复杂场景

谷歌最新推出的AI模型MusicLM，可直接将文字、图像自动生成音乐，并且曲风多样，凡是想听的音乐，基本都能自动生成。

MusicLM并非是第一个可自动生成音乐的AI模型，此前，可视化AI工具Riffusion也能自动创作音乐，还有Dance Diffusion，此外，当前最热门的聊天机器人ChatGPT的研发者OpenAI也推出过Jukebox。

但值得注意的是，这些可自动生成音乐的AI系统，受限于技术和数据等因素，创作的音乐都比较简单，相对而言并不复杂。

和前辈们不同的是，MusicLM可创作特别复杂和保真度特别高的音乐，也可通过图像生成音乐。这算是实现了全新突破，通过AI技术不仅可以识别乐器，融合音乐流派，还可以通过更抽象的概念生成音乐。

比如，想要街机游戏配乐，只要输入“街机游戏的主配乐，它节奏快且乐观”等文字，MusicLM便可自动生成音乐。MusicLM也可通过图像生成音乐，例如世界名作《呐喊》《格尔尼卡》《星空》等皆可作为素材来源。

不过，值得一提的是，目前谷歌只是发布了MusicLM的研究成果，因为版权等问题，谷歌还未向公众开放MusicLM。

AI生成音乐难在哪？

去年10月，谷歌在生成式AI模型上已经推出过AudioLM，只需输入短时音频，就能生成相似风格的音频。彼时AudioLM只是纯音频模型，这个技术类似于语言模型，根据提示的语音内容，自主判断并生成相似内容。

从这个角度看，AudioLM可视为是MusicLM的前身。AudioLM在不进行转录或标记的情况下，可以模仿音频的音色、响度和清晰度等。但是，AudioLM生成的音频和原版并无太大区别，并未得到公开应用。

通过AI模型创作音乐，这件事并不容易，因为生成的音乐包括音频信号、环境声音、人的声音等多个维度，是由很多信号相互作用形成的，而人体每次向外发出的声音，无论声音响度大小、音色好差，都由句法、音律等组成，这是非常复杂的综合性系统。

也恰恰是这些原因，在早期的探索过程中，自动生成的音频合成痕迹明显，声音听起来并不自然，发音也都不标准。因此AI模型要想实现真正意义上的自动生成音频，依靠海量的数据训练和模拟，是必不可少的基础性步骤。

针对这些挑战，作为AudioLM的“升级版”，MusicLM的训练数据更加庞大。据了解，谷歌在28万小时的音乐数据集中，才训练出MusicLM，为理解深度和复杂的音乐场景提供了基础。

此外值得一提的是，针对任务缺乏评估数据等问题，谷歌专门引入了MusicCaps，用于文本到音乐的生成任务评估。

生成式AI迎来爆发

此次谷歌推出MusicLM，可视为拓展AI应用的注脚，背后则是生成式AI赛道的爆发。事实上，生成式AI一直是近两年最炙手可热的话题。

2021年，OpenAI相继发布了划时代的DALL-E、DALL-E 2模型，实现了文本生成图像的跨越；去年，Meta发布了AI短视频生成模型Make-A-Video，同样可由文本内容生成视频；谷歌也发布了短视频AI生成模型Imagen Video与Phenaki。

不止是国外，国内也有很多生成式AI应用。比如，字节跳动旗下剪映APP，可根据文字内容自动生成匹配的视频画面。去年初，网易推出了“网易天音”，也是一站式AI音乐创作平台，可将用户编辑的内容通过AI自动生成为歌曲。

可以看到，生成式AI应用的场景越来越广泛，写作、绘画、剪视频等等，都可以通过AI技术实现。基于生成式AI广泛的应用前景，谷歌、微软、Meta等巨头们纷纷推进研发，将生成式AI技术融合到产品中，这加速了生成式AI赛道的爆发。

事实上，生成式AI高速发展并非是这两年的事，只是因技术门槛过高，其前沿动态一直在科技圈小范围流传。直到AI绘画、AI写作等频繁出圈，生成式AI得到了更广泛的关注。

生成式AI赛道爆发有必然原因，大数据和算法应用越来越成熟，模型工具越来越完善，这都加速了生成式AI应用的迭代。当前，生成式AI已经迎来爆发，未来还有巨大的发展潜力。根据Gartner统计数据，预计到2025 年，生成式AI将占所有生成数据的10%，而目前的比例还不到1%。

当然，任何技术都是一把“双刃剑”，生成式AI也面临着版权问题等挑战，此外还面临由AI生成“错误”引发的各种损失，就目前来看，还离不开人为干预。但长期而言，生成式AI巨大的发展潜力已经成为共识。

延伸阅读

1.彩云小梦

是一款小说续写软件，由北京彩彻区明科技有限公司开发运营，具备AI续写功能。

人物对话：可在软件内与自己创建的人物开启对话。

语音通话模拟：在人物详情页的语音通话按钮，或是在聊天页面点击打电话按钮，可开启语音通话。

AI续写：在输入一段文字后，选择软件内的AI小梦来帮写，便能自动续写内容。

续写内容分享：支持一键生成图片，提供保存或分享他人。

2.Stability AI

业内备受瞩目的AI独角兽企业，曾推出著名的Stable Diffusion开源模型，其在学术和工业界的AI研究和应用受到各界的广泛关注和肯定。

Stable Diffusion：类似DALL-E2系统，可通过文本描述生成对应的图像，允许任何人在没有监督情况下使用和构建其模型。

DreamStudio：由Stable Diffusion提供支持的新AI系统，可根据自然语言的描述创建逼真的图像、艺术和动画。

本文提供的信息仅用于一般指导和信息目的，本文的内容在任何情况下均不应被视为投资、业务、法律或税务建议。

关键词： MusicLM