谷歌DeepMind借神经网络构建原始音频算法合成人工语音

2016-09-10 18:48

据外媒报道，目前谷歌旗下人工智能部门DeepMind已经研发了一项新的技术WaveNet，借助于深度神经网络让人工智能模仿人类的声音说话，它能直接合成原始音波模型，而非采用预录制的人类声音，听起来十分自然。设想在未来，人工智能同人类进行自然且互相理解的发声和对话将真正成为现实。尽管近几年，语音识别和个人数字助理技术飞速发展，不过Siri、Cortana等数字助手的语音仍需要借助预录制的人声，且有时能够明显听出冰冷和机械化的发音。

DeepMind的新AI自然语音技术有所不同，DeepMind的天才工程师们通过深度神经网络构建了一个算法模型，让AI自己合成出声音进行语音对话，同时能够理解英语和中文（普通话）的不同表达时序，并且实时做出语音回馈。令人惊喜的是这项新技术的表现超出了现代最尖端的人工文本-语音系统。目前Google采用的两种最优文本-语音模型Parameric TTS与Concatenative TTS。这就需要使用到超大型的记录说话者的语音片段的数据库，然后将这些语音片段重新组合成完整的话语。

算法模型

上方动画所示为一个WaveNet模型的内部结构，通常是一种完整的卷积神经网络，卷积层中有各种各样的扩张因子，允许其接受域深度成倍增长，并且覆盖数千个时间步长。

在训练时，输入序列是从人类说话者记录得来的真实波形。在训练之后，DeepMind可以对网络取样，以生成合成话语。在取样的每一个步骤中，将从由网络计算得出的概率分布中抽取数值。所抽取的数值随后被反馈到输入信息中，这样便完成下一步新预测。这样的取样方法对于生成复杂且听起来真实的音频是至关重要的。

为了实现运用WaveNet将文本转化为语音，必须先告诉WaveNet文本的内容是什么。我们通过将文本转换成语言和语音特征（包括音位、音节、单词等），把转换得来的特征提供给WaveNet，完成这一过程。这意味着网络的预测步骤不仅仅基于先前获得的音频样本，而且要基于文本所传达的内容。

如果我们想要脱离文本序列来训练网络，网络依然能够生成语音，但是得自行编造想要传达的内容。这种条件下生成的音频简直是胡言乱语，有意义的单词被编造的像单词的声音隔断开。

WaveNet通过直接为音频信号的原始波形建模，一次为一种音频样本建模，来改变这种范式。同生成听起来更为自然的语音相同，使用原始波形意味着WaveNet能够为任意类型的音频建模，包括音乐。

以下是parametric方法生成的语音片段

以下是concatenative模型生成的语音片段

以下是WaveNet生成的一些声音片段，明显更加自然：

发表评论