AI音乐家：实现编曲自由的Prompt

今天，我们听点音乐。这段音乐是由MusicLM根据下方的提示自动生成。电子游戏中播放的电子歌曲（0:00-0:15），在河边播放的冥想歌曲（0:15-0:30），火（0:30-0:45），烟花（0:45-0:60）。MusicLM是谷歌于2023年1月推出的一种AI音乐生成器，能够基于文本描述生成高保真的音乐。

在给出提示后，MusicLM将音乐生成过程视为分层的序列到序列建模任务，它以24 kHz的频率生成音乐，并在几分钟内保持一致。

AI生成音乐的历史悠久，早在上世纪90年代，音乐学教授David Koepp写出了第一个程序——EMI，意思是“音乐智能的实验”，能够谱出协奏曲、合唱曲、交响乐和歌剧。尽管写这个程序花费了七年时间，但该程序一经推出，便在短短一天就谱出了5000首巴赫风格的赞美诗。

2016年，三位音乐家企业家创立AIVA technology，利用AI创作音乐。AIVA能够为电影、广告、游戏、预告片和电视节目创作情感配乐。AIVA通过读取由历史上最著名的作曲家创作的大型音乐数据库，并在乐谱中寻找模式和规则，来了解音乐的风格，基于强化学习，在忠实于原始主题的同时，根据用户指定的偏好在每次迭代中逐渐偏离原始主题，从而生成个性化的音乐。

最近的RIFFUSION使用AI图像生成引擎Stable Diffusion将文本提示转换为频谱图，然后再转换为音乐。具体来说，通过微调Stable Diffusion以生成频谱图图像，如给出提示“带有爵士乐萨克斯管独奏的放克低音线”，再将生成的频谱图转换为音频剪辑。音频处理发生在模型的下游，它可以通过改变种子而产生无限的提示变化。

另外，OpenAI在2020年发布了一款名为“Jukebox”的AI音乐生成器。通过输入流派、艺术家和歌词，Jukebox能够输出从头开始制作的新音乐样本。

目前，各种生成模型的最先进技术主要由基于Transformer的自回归模型或基于U-Net的扩散模型所主导。尽管生成具有长期一致性的高质量音频是一个挑战，但最近有一系列方法解决了这个问题。

例如，Jukebox提出了一种不同时间分辨率的VQ-VAE的层次结构，以实现高时间一致性，但生成的音乐呈现出明显的假象。另一方面，PerceiverAR提议对SoundStream标记的序列进行逐步建模，实现高质量的音频，但压缩了长期的时间一致性。受这些方法的启发，AudioLM通过依赖分层标记化和生成方案来解决一致性和高质量合成之间的权衡。

一些尝试从文本描述中生成音频的工作逐渐涌现。

DiffSound使用CLIP作为文本编码器，并应用扩散模型来预测基于文本嵌入的目标音频的量化旋律谱特征。AudioGen使用T5编码器嵌入文本，并使用自回归变换器解码器预测由EnCodec产生的目标音频代码。这两种方法都依赖于适量的配对训练数据。基于文本的音频合成的前身是基于文本的图像生成模型，由于架构的改进和大量高质量的配对训练数据的可用性，这些模型在质量上取得了显著的进步。

文生图的方法已被扩展到从文本提示生成视频。例如，DALL-E 2依靠CLIP进行文本编码的方式同样能为音乐和文本的联合嵌入模型提供参考。

作为一种音乐-文本联合嵌入模型，MuLan由两个嵌入塔组成，每个模态一个。MuLan是在成对的音乐片段及其相应的文本注释上训练的。重要的是，MuLan对其训练数据质量的要求非常弱，即使在音乐-文本对只有微弱关联的情况下也能学习跨模式的对应关系。好听吗？

和人类音乐家相比，以Jukebox为例，这些系统并没有像生成文本和图像的系统那样受欢迎。尽管它们生成的音乐在质量、连贯性、音频样本长度以及根据艺术家、流派和歌词进行调节的能力方面向前迈进了一步，但输出的音乐并没有那么令人印象深刻——大多数都是低保真、简单的，并且缺乏传统的歌曲结构，比如重复的合唱，仍旧与人类创作的音乐之间存在显著差距。

但是，MusicLM将“文生音乐”向前推进了一大步。

实验表明，MusicLM在音频质量和对文本描述的遵守方面都优于以前的系统。MusicLM主要分为两个部分：首先，它接受一系列音频标记，并将它们映射到字幕中的语义标记进行训练。第二部分接收用户字幕和/或输入音频，并生成声学标记。这些都让其保真效果比其它系统好，该系统依赖于早期的人工智能模型AudioLM以及SoundStream和MuLan等其他组件。

一方面，MusicLM模型能够根据文本自动生成符合场景的音乐。模型能够生成10秒乐器片段（如大提琴或沙球）、某些音乐流派的8秒片段，初学者钢琴演奏者与高级钢琴演奏者的声音，以及由一两个词（如“旋律技术”）生成的5分钟长的片段。一个特别有趣的例子是，对一幅画进行描述并以此生成音乐。

Prompt：Jacques-Louis David的《拿破仑穿越阿尔卑斯山》——这幅作品展示了拿破仑和他的军队于1800年5月通过大圣伯纳德山口穿越阿尔卑斯山的真实穿越的强烈理想化景象。另一方面，MusicLM还可以建立在现有的旋律之上，即无论是哼唱、演唱、吹口哨，还是在乐器上演奏，MusicLM都可以继续创建音乐，保障音乐不失真，带来各种创造性的可能。

此外，MusicLM还具有故事模式，能够将几种描述拼接在一起，创造出唤起特定情感的配乐。

当然，MusicLM目前还并不是一个成熟的模型，就以模拟人声为例，虽然它可以正确处理声音的音调，但是质感还存在问题。此外，很多自动生成的“歌词”有些含糊不清，就像是根本无人能听懂的外星语。不过，谷歌的研究人员也提出了一些改进方向：“未来的工作可能会集中在歌词生成，同时改善提示文本准确性和提高生成质量。复杂歌曲结构的建模，如前奏、主歌和副歌也将是重点发展方向。”

文生音乐，同样令人担忧。

MusicLM基于文本描述生成高质量的音乐，进一步扩展了一套工具，使人类能够完成创造性的音乐任务。然而，值得注意的是，谷歌并没有对外发布MusicLM，只是公开了一个包含大约5500个音乐文本对的数据集，这可能有助于训练和评估其他音乐AI。谷歌指出，模型及其处理的用例存在一些风险。

例如，该系统生成的音乐中约有1%是直接从人类音乐人那里复刻得来；生成的样本将反映训练数据中存在的偏差，这就提出了对训练数据中代表性不足的文化进行音乐生成的一些问题，同时也引发了对文化挪用的担忧。因此，未来需要更多的工作来解决这些风险。但可以预见的是，AI研究人员将继续改进音乐生成技术，直到每个人都能通过描述创造出任何风格的工作室质量的音乐。

尽管没有人能准确预测这个目标何时能实现，或者它将如何影响音乐产业，但这一天一定会到来。