论文部分内容阅读
歌唱语音合成(Singing Voice Synthesis,SVS)旨在实现将歌词和乐谱信息(例如节奏、音高等)转换成歌唱语音。统计参数合成方法可利用较少量歌唱数据合成平稳流畅的歌唱语音,已成为主流的歌唱语音合成方法。传统以隐马尔科夫模型为代表的统计参数歌唱语音合成声学模型的精度不足,合成歌唱语音的自然度不理想。近年来,以深度神经网络(Deep Neural Network,DNN)为代表的深度学习模型在统计参数语音合成中得到了广泛应用,显著提高了声学建模精度,但是DNN无法对歌唱语音中声学特征的长时相关性进行建模。因此,本文围绕基于深度学习的歌唱语音合成,开展了循环神经网络、深度自回归模型、序列到序列模型等歌唱语音合成声学建模方法的研究,具体包括:首先,本文研究了基于循环神经网络的歌唱语音合成方法。歌唱语音合成中存在复杂的上下文依赖关系,该方法利用循环神经网络结构对这些依赖关系进行建模,提升了传统DNN模型预测基频、频谱、时长特征的精度。其次,本文提出了基于深度自回归模型的歌唱语音合成声学建模方法。为了更好的描述在连续帧中声学特征之间的依赖性,该方法采用深度自回归的方式来预测基频轨迹和谱特征,进一步改善了循环神经网络声学模型的建模精度,实现了对于颤音等基频动态特性的生成,提升了合成歌唱语音的自然度。最后,本文设计实现了基于序列到序列模型的歌唱语音合成方法。该方法在主流Tacotron2模型的基础上,通过引入时长嵌入层与依据时长扩张输入文本,实现了时长可控的序列到序列的歌唱合成。进一步引入双向解码机制来约束前向解码和后向解码的一致性,达到了加强时长控制能力、加快模型收敛的目的。实验结果表明该方法可以取得优于深度自回归模型的合成语音主观质量。