论文部分内容阅读
语音转换(Voice Conversion,VC)是一种将原始音频通过音频处理变成另一种风格的声音的技术。语音转换的有很多应用场景,最常见的是在语音合成(Text-to-Speech Synthesis,TTS)中用有限的语料数据帮助构造语料库。另外,语音转换在语音修复、语音翻译和语音安全相关的技术中都起到了重要的作用。在语音转换中,说话人转换是最重要的任务,也是本文研究的主要对象。语音转换技术根据语料的情况可以分为平行语料的语音转换和非平行语料的语音转换。平行语料的语音转换一般指已有原始说话人和目标说话人的语料,且这些语料的文本内容一致;非平行语料的语音转换则一般不具备相同文本内容的语料。对于平行语料的语音转换技术,本文提出了一种文本信息帮助下的神经网络算法,通过语音识别技术对音频解码和对齐得到音素序列,用语音活动检测得到更精准的语音边界。在音素序列的帮助下,用动态时间规整算法得到更精准的帧级别对齐结果,用长短时记忆循环神经网络对声学特征和音素序列建模,得到目标的频谱特征。实验表明,该系统在主观测试与客观指标上相较基线神经网络系统都有明显提升。对于非平行语料的语音转换技术,本文提出了一种基于对偶学习的神经网络模型,用少量平行语料的预训练得到性能较差的初始化模型,同时训练原始说话人转目标说话人与目标说话人转原始说话人两个转换模型,并且用模仿检测模型作为中间监督模型,保证两个模型的中间产物始终为正常的语音频谱特征。实验表明,该系统在客观指标不偏离正常范围的情况下,在主观测试中能胜过初始化转换模型,证明了对偶学习在欺骗检测模型起到正常监督作用的情况下,可以有效地利用非平行数据提升转换模型的性能。