OpenAI打造AI“百变歌姬”！训练120万首歌曲，化身猫王布兰妮

发布时间：2020-05-07 02:04:37 所属栏目：智能家居来源：网络整理

导读：Open AI研发“自动点唱机”，可以模拟人类歌唱声。

副标题[/!--empirenews.page--] OpenAI打造AI“百变歌姬”！训练120万首歌曲，化身猫王布兰妮

智东西（公众号：zhidxcom）
编 | 董温淑

智东西5月6日消息，近日，非营利人工智能研究组织OpenAI利用神经网络研发出一款“自动点唱机”——Jukebox。无论是摇滚、Hip-Hop还是爵士，Jukebox都能毫无压力地生成相应风格的音乐。

相较之前的音乐生成工具，Jukebox能精准捕捉到人类的声音以及更微妙的音色、力度和表现力等特征，只要输入流派、艺术家和歌词，就能生成相应风格的高仿真音乐或歌声。

OpenAI打造AI“百变歌姬”！训练120万首歌曲，化身猫王布兰妮

这项研究发表在OpenAI官网上，论文标题为《Jukebox：一个音乐生成模型（Jukebox: A Generative Model for Music）》

GitHub代码：https://github.com/openai/jukebox/

论文链接：https://cdn.openai.com/papers/jukebox.pdf

OpenAI打造AI“百变歌姬”！训练120万首歌曲，化身猫王布兰妮

一、音频序列较长，建模十分困难

对自动生成音乐的探索可以追溯到半个多世纪之前。

一种典型方法是钢琴卷帘（Piano Roll），即通过指定要每个音符的演奏乐器、音高、时间和速度，象征性地用自动钢琴琴键弹奏的方式来产生音乐。

曾有研究者用这种音乐生成方法生成1分钟长的巴赫合唱、多乐器演奏复调音乐、以及数分钟长的音乐作品。

不过，这种按单个音符生成音乐的方法有局限性，无法捕捉人类的声音及更微妙的音色、力度和表现力等特征，而这些特征对于演奏的效果十分重要。

还有一种方法是直接将音乐建模成原始音频。相比于对音符建模，在音频级别上生成音乐更加困难。

这是因为音频级别的音乐拥有更长的序列。比如，一首典型的4分钟长的CD品质（44kHz，16-bit）音乐，就有超过1000万个时间步长（timestep）。

1000万是什么概念？要知道，OpenAI参数量高达15亿的通用语言模型GPT-2只有1000个时间步长，完虐Dota 2人类选手的OpenAI Five每场比赛也仅耗费数万个时间步长。

因此，要学习音乐的高级语义，模型需引入长时记忆（long-range dependency）关系，以生成时间更长、结构更多样、音色更多元的音频。

解决长输入问题的一种方法是使用自动编码器，通过舍弃一些在感知上不相关的信息位，将原始音频压缩到较低维度的空间，然后训练模型在此压缩空间中生成音频，并通过上采样最终回到原始音频空间，最终生成与预期风格相近的音乐。

OpenAI打造AI“百变歌姬”！训练120万首歌曲，化身猫王布兰妮

研究人员选用分层VQ-VAE模型（hierarchical VQ-VAE architecture）来压缩原始音频，再用一个自回归稀疏Transformer来预测音乐，同时训练一个自回归上采样算法来重现每个层次中丢失的信息。

1、压缩原始音频

之前的研究证明，分层VQ-VAE模型可以生成高保真图像。OpenAI研究人员认为，可以借助这一模型来把原始音频压缩为离散的代码。

研究人员从3个不同的抽象层次为原始音频建模，每个VQ-VAE层次独立编码输入，底层编码产生最高质量的重构，顶层编码只保留基本的音乐信息。在每一层，利用WaveNet式非因果关系1-D扩张卷积组成的残差网络，交织下采样和上采样1-D卷积，以此匹配不同的跳跃长度。

三个层次分别将44kHz的原始音频按照8x、32x、128x压缩，每个层次的码本大小（codebook size）为2048。

通过这种降采样方法生成的音频损失了大部分的细节，当进一步降低音量时会出现明显的噪声。但是，它保留了关于音调、音色和音量的基本信息。

OpenAI打造AI“百变歌姬”！训练120万首歌曲，化身猫王布兰妮

2、生成音乐代码

接下来，研究人员用一个简化的自回归稀疏Transformer训练模型，使模型学习VQ-VAE模型编码的音乐代码的分布，并使模型在这个离散的空间中产生音乐。

同样地，研究人员也从3个层次建模：1个顶层的先验模型，可以生成最多的压缩代码；两个上采样先验模型，生成较少的压缩代码。

顶层先验模型模拟音乐的长期结构（long-range structure），从这一层次解码的样本音频质量较低，但是能捕捉到歌唱、旋律等高级语义。

中层和底层的上采样先验模型可以模拟出音色等特征，显著提升音质。

一旦所有的先验模型都经过训练，研究人员就可以从顶层先验模型生成代码，并用上采样先验模型对代码进行上采样，再用VQ-VAE解码器将代码解码为原始音频。

OpenAI打造AI“百变歌姬”！训练120万首歌曲，化身猫王布兰妮

3、用120万首歌曲进行训练

模型搭建好后，研究人员从网络上搜集了120万首歌曲（其中半数为英文歌曲）对其进行训练，还引入了歌词百科LyricWiki中的歌词和元数据提升训练效果。

（编辑：555手机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4K超高清小米电视EA	电视销量创12年冰点年
3380元佳明公布首款智	小米又缔造了一个爆款