基于深度学习的单元选择拼接语音合成方法研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:konashu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是指把文本转换为对应音频的技术,目的是让机器拥有说话的能力。当前主流的语音合成方法是统计参数语音合成和基于单元选择波形拼接的语音合成。其中,统计参数合成法灵活度高、资源占用率较小,但合成的音频由于过平滑造成机械感较强,降低了自然度。使用统计声学模型来指导真实语音单元片段的选取和波形拼接,能有效避免过平滑问题,得到比传统参数合成法更自然、高质量的合成语音。传统单元选择拼接法使用隐马尔可夫模型对声学信号建模,由于转移状态有限而导致建模效果不理想。采用常规静、动态声学特征(梅尔倒谱系数、基频)参与模型训练和后期代价计算时,多特征拼接使运算复杂度增大,且预测的声学特征与真实特征数值分布存在差异,导致合成音频质量降低。针对上述问题,本课题以基于深度学习的单元选择波形拼接语音合成方法为研究切入点,旨在提高合成音频的质量。具体工作内容和贡献如下:一、搭建了一套灵活的拼接合成系统。为提高实验效率,模块化系统各个部分,本次系统分为前端文本分析、音素库设计、音素预选、模型构建、代价函数、音素拼接六个模块,在帧级别上对齐文本与音频数据,以音素为最小拼接基元,研究者可只针对某模块展开研究。二、构建了多种深度网络模型。搭建持续时长模型用于预测音素帧数,声学模型用于预测声学特征,设计对照实验并验证了不同声学模型对最终合成语音质量的影响。结果表明基于LSTM-RNN与GAN的声学网络模型相比传统DNN模型在声学信号方面建模能力更强,提高了合成音频的质量。三、针对声学特征进行了探究。一方面提取了常规梅尔倒谱、基频等声学特征,分析去除动态特征对合成音频质量的影响。另一方面构建了微调的瓶颈特征系统,该系统模型从中间层输出低维瓶颈特征参与目标代价计算,降低代价函数总体运算量,且微调模型预测的特征准确度得到提高,改善了合成音频的质量。四、评估实验系统性能。使用Blizzard Challenge 2018英文合成语料库为实验数据,采用平均主观意见分和梅尔倒谱失真作为系统性能的主观评测和客观度量指标。通过计算主、客观指标,分析各实验系统的优劣与合成音频质量的高低。实验结果表明:经过相似语料训练后再微调的瓶颈特征系统模型,在主、客观指标上均取得良好结果。该系统预测的瓶颈特征更能表征拼接基元特性,从而指导目标代价筛选理想候选单元,提高合成语音的质量。
其他文献
目前,利用化学气相沉积方法垂直叠加一维二维材料的范德华异质结得到了广泛的关注,有望开创电子和光电子器件的新时代。对于二维材料而言,其具有无悬键表面,因此通过范德华力使不同维度的材料相互作用形成混合维度的范德华异质结构,会带来全新的结构和性质。近年来,基于低维半导体异质结的宽光谱覆盖和超高灵敏的光电器件的研究,引起了国内外科学家的广泛兴趣。以往的研究主要集中在一维/一维或二维/二维异质结的可控生长和
碾碎荆棘,扯落满地风雨,在蛮荒。伟岸的身姿在泥泞中矗立,直指梦想的方向。不相信平庸,因而选择了远方;不相信眼泪,所以选择了刚强。凝望,凝望前方,直到天空最远的地方。昂扬,昂扬挺立,穿过岁月的风霜。责任与担当,希望与梦想。鉴定与执着,终将收获辉煌。抖落汗水,让历史去见证。我们不屈的脊梁。
期刊
本文基于团队项目申请的一种可变压缩比(VCR)机构的专利,在某汽油机上搭载了此VCR机构,进行了模型仿真与计算分析。文中以某1.5L汽油机为例,对其进行VCR机构的搭载,研究了VCR结构的运动规律。其原理为通过调节机构对相位角β进行调节,来改变辅助活塞的停留位置,即改变了燃烧室容积,从而改变发动机压缩比,设计了辅助活塞等零件的尺寸,推导出压缩比的变化范围为9~18。通过台架实验获得了基础机实验数据
在5G等现代高新信息产业的高速发展下,多屏互动已成为重要应用场景,而新场景也带来了新的挑战。特别在智能家居的多屏互动中,各个屏幕如投影屏、手机、平板、冰箱屏幕等往往需要显示同一个视频源的图像,但各个屏幕的分辨率并不可能完全一致,将会导致屏幕间不能适配。并且智能家居的设备屏幕现今仍然缺少统一标准,不同厂家设备的屏幕特性和显示效果不尽相同,导致显示质量不能保证。为了解决灵活兼容不同分辨率的屏幕和在不同
目前锂离子电池正极材料的比容量较低,制约了锂离子电池能量密度的提高,已难以满足社会的需求。硫与氟化铁都是具有潜在应用前景的锂离子电池正极材料,因为这两种材料都具有比容量高的优点,且价格便宜。但是硫的低导电率及锂化后产生的可溶性多硫化物的穿梭效应导致锂硫电池循环性能不佳。Fe F3的电导率低,且制备工艺复杂。针对以上问题,本文采用喷雾裂解法制备出Fe2O3/碳球作为前驱体,利用Fe的催化石墨化制备出
针对传统增材制造技术难以制备出小尺寸、形态可控和磨粒均布的微结构,本文提出了一种静电射流喷印微结构的新方法。通过精密注射泵将静电液供给到喷嘴处,在高压静电场作用下液面回流形成微细射流,碳化硅磨粒在微细射流束缚下重新排布,以此实现喷印出碳化硅磨粒均布、尺寸形态可控微结构的目的。本文仿真了耦合场中的锥射流过程并进行了射流喷印液滴、线条和微结构实验,主要研究内容包括以下几点:(1)分析了射流基本原理并仿
近年来,电池科技的发展极大的推动了电动汽车、混合动力汽车的发展。在众多电池体系中,镍锌电池因其超高的功率密度、快速充放电、高工作电压等优势,有望在动力电池领域成为取代铅酸电池、镍氢电池、镍镉电池的有力竞争者。然而,传统镍锌电池正极活性材料氢氧化镍或氧化镍导电性差,并且在制备过程中由于粘结剂的加入增加了接触电阻,牺牲了部分活性,直接影响了电池的性能。而三维的纳米多孔金属拥有自支撑的开放结构,具有高电
随着以抖音、快手为代表的短视频社交软件的风靡,全球的社交软件都开始短视频化,短视频的超高日活和大量讨论度就随之也带来了商机。短视频广告作为一种新型媒体广告,以其自身内容新颖、传播性强、讨论度高等特点,使广告主和平台以及用户之间的关系产生了微妙的变化。本项目中笔者以字节跳动海外商业广告市场为背景,以Tik Tok Ads平台为业务依托,对短视频广告投放流程中的问题进行优化改进。本课题的需求来源是销售
在快速推进全面实现小康社会的大背景下,温室大棚作为设施化农业的重要组成部分,成为农村地区实现脱贫摘帽和乡村振兴的重要手段。但是,受限于中国当下仍处于发展中国家的基本国情,温室大棚设施质量参差不齐。其运行模式粗放,难以实现室内热环境精准调控,严重制约了农业现代化的发展和损害了农民的经济效益。基于此,本研究提出了一种适应于夏热冬冷气候区农村温室大棚的生物质供暖系统。该系统以农业废弃物为一次能源输入,即
锂/钠离子电池是目前使用最广泛的储能器件,也是储能领域最受关注的研究点。负极作为电池的关键材料,对电池的电化学性能有着至关重要的影响。目前锂离子电池商用负极材料为石墨材料,但石墨材料理论比容量低且层间距较小,限制了锂离子电池能量密度的提升,亟需寻找高容量负极替代材料。由于独特的二维层状结构和良好的电子导电性以及充足的离子存储空间,金属氯化物插层的石墨层间化合物作为负极材料极具应用潜力。但由于离子嵌