基于对抗生成网络的个性化语音合成研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:Evilkonata
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成技术在读书播报、语音导航和智能音响等很多领域发挥着重要的作用。目前,基于循环神经网络构建的端到端语音合成系统已经获得了很不错的合成语音质量,但存在着难以随时间并行化、耗费资源巨大和训练成本高的问题。从提高语音合成系统并行能力的动机出发,本文提出了一种全卷积的语音合成系统架构,并尝试简化全卷积架构网络中的注意力模块,在保证基本合成语音质量的前提下加快语音合成的速度。更进一步地,针对大众对个性化语音的需求,本文对非平行数据下的个性化语音合成进行了研究,对于现有模型存在的语音合成个性化特征不明显的问题,引入了说话人识别领域的一种说话人相关特征,期望获得更好的语音转换效果。本文的研究内容主要有以下几个方面。(1)提出了一个基于全卷积网络的语音合成系统SR-FCTTS,以解决端到端语音合成系统中存在的难以并行训练,合成语音速度慢的问题。在合成器模块中引入扩张因果卷积代替循环神经网络的循环结构来获取远程上下文信息,并且加入残差模块来防止深层网络的网络退化问题。在已有的点积注意力机制上引入对角线注意力机制来简化网络的注意力模块,降低注意力模块的训练学习成本,进而对系统合成语音速度产生正向影响。最后,通过实验证实了系统合成器模块的合成速度得到提升。(2)提出了一个频谱超分辨率网络CSRN,将其加入到全卷积语音合成系统中,代替结构较重的声码器,进而提升整个系统的语音合成速度。在卷积块中,通过改进初始化函数和权重归一化函数来引导模型更快地向好的方向收敛。另外,在损失函数中引入二分散度损失,帮助模型更快地收敛。最后,通过实验证实了CSRN有助于整个系统的合成效果的提升。(3)提出了一个改进的基于星型对抗生成网络的语音转换系统XSGAN-VC,以解决现有平行语料数据获取困难以及语音转换任务中说话人个性特征表达不充分的问题。在原有的说话人身份独热编码向量的基础上,拼接表征说话人语音细节的向量x-vector,获得更全面的说话人个性表达,进而提升转换后的语音与目标说话人语音的相似度。最后,经过实验证明了引入x-vector特征的有效性。
其他文献
节理为岩体中渗流的主要通道,是影响边坡、大坝和地下洞室渗流预测和控制的主要因素,根据立方定律岩体过水量受内部的隙宽影响,因此研究岩石节理的在剪切过程中的隙宽变化,即剪胀特性可为后续岩体工程的稳定性以及渗流特性提供基础。同时由于风化、侵蚀等物理作用和剪切错动的影响,在岩体节理内部产生一定厚度的充填物形成充填节理,其中薄层充填节理因充填介质厚度较小,剪胀特性受到边界条件、岩石节理与充填介质等多因素的共
房地产行业在国民经济中有着举足轻重的作用,是我国经济重要增长点之一。但是许多房地产企业因为盲目追求经济利益,而忽视了对其利益相关者应肩负的社会责任,引发了不少社会矛盾并且严重困扰着房地产企业的发展,导致其竞争力不足。如何妥善解决这些社会矛盾,提高自身竞争力,已经成为房地产企业亟待解决的难题。近年来,国家高度重视弘扬优秀传统文化,很多行业从优秀传统文化中受到有益启示。其中儒家义利观是我国古代先贤处理
厨余垃圾易腐烂变质,产生的渗滤液和臭气,易于传播病毒和致病菌,对人体健康和环境造成危害。随着人们生活水平日益提高,餐饮业快速发展,厨余垃圾产量也逐年增长。厨余垃圾无害化处理和资源化利用已成为社会关注的焦点。塑料是从石油中提取的合成聚合物,具有难降解性,探索更科学有效地处理塑料垃圾的措施已成为国内外环境生态中亟待解决的一大问题。黄粉虫被誉为“蛋白质饲料宝库”,是一种重要的蛋白质资源昆虫,不仅能广泛用
基层政府是政策和任务的执行者,其行为及背后的行为逻辑是否合理,对于推进国家治理体系和治理能力的现代化存在一定程度上影响。随着我国赶超现代化战略的实施,在全面发展的重要过程中,政府部门占据主导角色,各政府层级面临目标任务下沉的压力,上级为了完成自身的目标计划,将任务目标层层分解到基层政府及部门,在原有的任务量和时间期限上加压,形成“压力型体制”。十八大以来,基层政府的工作重心由单一转向多元,在基层政
酸性土壤(p H<5.5)占世界可耕地面积的50%,酸性土壤对植物的主要危害是活性铝离子(Al3+)。铝离子抑制大多数植物根系生长,从而影响植物的产量和质量。铝毒已成为酸性土壤上危害植物生长和发育的主要因素,因此对植物的耐铝机制研究具有重要的理论和实用价值。山茶是生长在酸性土壤上一种常绿灌木,其体内能富集一定的铝。为了探讨山茶对铝的生理生化响应机制及体内的铝积累效应,本论文以山茶‘红石榴’为研究材
羟基自由基(·OH)是目前已知攻击性最强的活性氧(ROS),被认为参与了阿尔兹海默症(AD)等神经退行性疾病的病理过程。据报道Aβ淀粉样蛋白片段,尤其是Aβ1-42,可以通过诱导线粒体氧化应激(MOS)对神经元产生毒性。然而,由于·OH极短的寿命(体内~10-9 s)和极短的扩散距离(~10-9 m),线粒体产生的·OH很难扩散到细胞外。因此,在单细胞内原位检测由Aβ1-42诱导的线粒体氧化应激产
目前,我国正在经历快速的城市化进程,在此过程中,城市规模的扩张和各类土地利用类型的转变是主要特征之一。我国历史悠久,有大量的历史遗迹留存,在城市建设中,对建设用地的需求难以避免地对城市中遗址的空间产生了压缩和破坏。城市遗址公园的出现大大缓解了遗址保护与城市建设的矛盾。但遗址公园的建设既要考虑城市公园的基础功能,又要满足遗址保护的需要,对设计与规划有较高的要求。城墙是城市出现的重要标志,在城市发展的
金边红苞凤梨(Ananas comosus var.bracteatus)叶片绿、白、红镶嵌,是一种极具观赏价值的彩叶植物。其叶片颜色尤其是红色的呈现,与植株的生长发育和环境因素有密切关系。光照和温度是影响其叶色呈现的重要环境因子,本文以金边红苞凤梨为试验材料,通过对不同遮荫和不同温度条件下叶片的叶色、条纹清晰度、叶片灼伤或萎焉程度三个方面综合评定植株的观赏性,从而筛选出适宜的遮荫和温度条件,为金
近年来,随着互联网、云计算、大数据、5G技术等行业的快速发展,车辆智能化水平得到很大的提升。但在推动更高级别自动驾驶技术发展过程中仍然存在众多技术挑战,如面对复杂多变的驾驶场景,驾驶行为呈现出较强的时空特性和随机性,即驾驶行为会随着驾驶场景的变化而变化,即使在单一驾驶场景下,驾驶行为也会随着驾驶人状态的变化呈现出多元性。车辆的运动行为预测影响着驾驶辅助系统的优化控制和车辆决策规划质量,对提升车辆行
红苞凤梨(Ananas comosus var.bracteatus)为凤梨科(Bromeliaceae)凤梨属(Ananas)多年生常绿草本植物,植株形态优美,色彩明媚,生长较快,花期持久,是一种具有较高观赏价值、园林绿化价值与植物用材价值的嵌合植物,有着广阔的市场开发利用前景。目前红苞凤梨的有效繁殖方式主要是扦插繁殖,其根系的强弱对苗木生产质量影响较大。本文以红苞凤梨金边嵌合植株为试验材料,优