论文部分内容阅读
歌声,是通过人类嗓音所表达的音乐形式,也是人类语音最富有表现力的表达方式。歌声合成(Singing Voice Synthesis,SVS)是指利用语音合成相关技术,让计算机能够像人一样发出优美动听的歌声。歌声合成作为语音合成技术一个新的应用领域,在虚拟歌手、唱片制作、数字音乐创作等领域都有相当大的应用价值和前景。随着近年来研究者对语音合成技术研究的深入,对歌声合成方法的研究也有了一定进展,但还没有针对普通话歌声合成方法进行深入的研究。由于歌声合成比单纯的语音合成更侧重于对旋律的演绎,而且增加了关于歌曲信息的处理过程,比如节奏、调性等信息,因此歌声合成比语音合成具有更大的挑战性。本文研究了基于统计参数模型的歌声合成算法,在现有普通话语音合成和歌声合成的基础上,提出了一种改良的基于WaveNet结构的普通话歌声合成模型,能够用小的训练语料获得较好的歌声合成效果。本文的主要工作和创新如下:1.建立了一个面向普通话歌声合成的歌声语料库。根据歌曲的节奏、调性等特点,选择了90首歌曲的音乐可扩展标记语言(Music Extensible Markup Language,MusicXML)格式乐谱文件,设计了歌声录制方案,邀请一位专业成年女性歌手在专业录音棚录制歌声语料库。录制的普通话歌曲语料库的总时长为169分钟,为普通话歌唱合成接下来的工作提供了坚实的数据保障。2.提出了一种从普通话歌曲MusicXML格式乐谱文件得到上下文相关标注的乐谱分析方法。设计了包含音素层、音节层、音乐信息层、乐句层、歌曲层等5层上下相关标注格式。通过输入普通话MusicXML格式乐谱文件,最终生成用于声学建模的MusicXML格式乐谱文件的上下文相关标注。3.实现了一种基于统计参数语音合成技术的普通话歌声合成方法。基于统计参数模型的普通话歌声合成方法能够根据输入的MusicXML格式乐谱文件合成出节奏和音高较为精准、音强适度、以及具有个性化音色的歌声。4.提出了一种基于WaveNet结构的普通话歌声合成方法。该方法对参数声码器提取的特征分别进行建模,最后通过WORLD声码器重构出歌声。提取的特征包括:谱包络(Spectral Envelope,SP)、非周期参数(Aperiodicity Envelope,AP)、基频(Fundamental Frequency,F0)、清/浊音判别(Voiced/Unvoiced,V/UV)。主、客观实验结果表明,该方法可以利用有限的歌声数据库合成出尚可接受的普通话歌声。