基于深度学习的语音转换研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:kaishizai2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换(Voice Conversion,VC)是一种将原始音频通过音频处理变成另一种风格的声音的技术。语音转换的有很多应用场景,最常见的是在语音合成(Text-to-Speech Synthesis,TTS)中用有限的语料数据帮助构造语料库。另外,语音转换在语音修复、语音翻译和语音安全相关的技术中都起到了重要的作用。在语音转换中,说话人转换是最重要的任务,也是本文研究的主要对象。语音转换技术根据语料的情况可以分为平行语料的语音转换和非平行语料的语音转换。平行语料的语音转换一般指已有原始说话人和目标说话人的语料,且这些语料的文本内容一致;非平行语料的语音转换则一般不具备相同文本内容的语料。对于平行语料的语音转换技术,本文提出了一种文本信息帮助下的神经网络算法,通过语音识别技术对音频解码和对齐得到音素序列,用语音活动检测得到更精准的语音边界。在音素序列的帮助下,用动态时间规整算法得到更精准的帧级别对齐结果,用长短时记忆循环神经网络对声学特征和音素序列建模,得到目标的频谱特征。实验表明,该系统在主观测试与客观指标上相较基线神经网络系统都有明显提升。对于非平行语料的语音转换技术,本文提出了一种基于对偶学习的神经网络模型,用少量平行语料的预训练得到性能较差的初始化模型,同时训练原始说话人转目标说话人与目标说话人转原始说话人两个转换模型,并且用模仿检测模型作为中间监督模型,保证两个模型的中间产物始终为正常的语音频谱特征。实验表明,该系统在客观指标不偏离正常范围的情况下,在主观测试中能胜过初始化转换模型,证明了对偶学习在欺骗检测模型起到正常监督作用的情况下,可以有效地利用非平行数据提升转换模型的性能。
其他文献
肺性脑病是由通气功能不全所致的动脉血二氧化碳急性或慢性潴留加重时所产生的脑部神经系统症状,是一组临床综合征.因多为老年患者,易并发多脏器功能不全,病死率较高.我们自1
蛛网膜下腔出血(SAH)是神经科常见病,以突发剧烈头痛伴恶心、呕吐、脑膜刺激征、血性脑脊液为特征.以往采用内科常规治疗为主,多予降低颅内压、止血、防治脑血管痉挛、营养脑
对阜蒙县大中型水库移民后期扶持项目实施工作从立项、实施、存在的问题进行了总结.针对实施过程中存在的问题,探索出从制度、组织保障措施到管理、监督、评估机制等方面加强
在各学科研究领域中,因果关系普遍存在,如身高影响体重、企业形象影响企业绩效、班级氛围影响学生成绩等,因果关系研究一直是实证研究的热点。在因果关系中,线性因果关系是主
针对长时间使用电脑造成的视疲劳问题,研制出了爽目电脑护眼仪.该护眼仪采用双向光干预技术,其中,纵向光采用8000K色温的仿自然光光源,横向光通过特殊设计的护眼色谱卡后变为波段
受全球性金融危机以及美元加息的影响,世界经济持续维持低迷增长的态势,国际外需放缓,以及国内人民币升值,劳动力成本逐年上涨,自2000年以来中国外贸出口保持的持续快速两位