【摘 要】
:
语音转换(VC:Voice Conversion)是指在保持语义内容不变的前提下,改变说话人的个性特征,使源说话人的语音在经过变换后听起来像是目标说话人说的一样。传统的语音转换方法大都采用
论文部分内容阅读
语音转换(VC:Voice Conversion)是指在保持语义内容不变的前提下,改变说话人的个性特征,使源说话人的语音在经过变换后听起来像是目标说话人说的一样。传统的语音转换方法大都采用平行语料训练源-目标说话人联合语音模型并由此推导相应的语音转换规则,但实际应用中不仅难以得到完全平行的语料,而且训练联合语音模型需要消耗大量的计算、系统扩展不方便。本文提出了一种全新的非平行语料训练的语音转换算法,首先利用STRAIGHT提取基频和短时谱,从短时谱获得相应的LPCC特征参数,然后对所有的特征参数进行通用背景模型(UBM:Universal Background Model)训练,再利用最大后验概率(MAP: Maximum a PosteriorProbability)自适应方法导出具体的说话人模型,最终得到相应的转换规则进行语音转换。ABX和MOS等实验表明可以得到与传统的平行语料联合训练方法接近的转换性能。实验结果充分说明了本文提出的方法不仅具有较好的转换性能,而且具有很好的系统扩展性。本课题的研究内容主要包括以下几个方面:1.语音转换的个性特征参数分析,包括声道参数与韵律参数等,如基音频率,短时谱参数,时长等。2.实现了传统的采用高斯混合模型(GMM:Gaussian Mixture Model)实现的语音转换系统,分析了传统的方法的特点与存在的问题。3.基于非平行语料,提出了优化自适应非平行训练的语音转换方法,解决了传统转换方法存在的主要问题。4.研究了通用背景模型(UBM)和说话人自适应技术,利用最大后验概率(MAP)自适应技术训练独立的说话人模型。5.研究了STRAIGHT分析-综合算法,利用STRAIGHT实现了说话人的基音频率和短时谱特征的分析,控制合成语音的时长等参数,最终合成出目标语音。6.构建了基于UBM与MAP自适应技术的非平行语料训练的语音转换系统,实现了整个系统,并对该系统的性能进了分析、评价。
其他文献
在铁路运营线路中,钢轨应变的变化蕴含着系统的许多重要信息。光纤布拉格光栅(简称光纤光栅)应变监测技术可以实现钢轨表面应变的监测,从而获得在列车载荷及环境(温度)变化等
随着微电子技术的发展和SOC技术的成熟,使嵌入式处理芯片的性能大大提高,用其进行大数据量的处理成为可能。同时加上无线通信技术的迅速发展,用现有先进的技术改变传统视频监
基于表演驱动的人脸动画生成技术是一项根据表演者面部表演驱动虚拟人物做出相同头部姿态和面部表情的技术,可广泛地应用于影视制作、人机交互、游戏制作、远程会议、医疗辅
混沌是一种由确定性的状态方程产生类似随机运动的现象,广泛存在于现实世界中。混沌科学是最近几十年才发展起来的活跃的前沿领域。由于混沌本身独特的现象,混沌在工程上的应用前景也越来越广阔。随着混沌理论和实践的发展,人们在混沌的应用方面特别是在混沌电路系统的应用取得了很大的进展,包括混沌保密通信、混沌加密、混沌同步和混沌压缩方面都取得了很多的研究成果。但是电路系统的设计和实现方面一直面临着挑战,还有许多实
随着信息技术和多媒体技术的不断发展,如何在各种不同分辨率显示器上显示图像或视频的问题也愈趋重要,因此视频缩放技术已经成为数字图像处理领域的一个研究热点。本文研究了
随着4G进入规模商用的阶段,5G的研发也在如火如茶的展开。作为5G中的关键技术之一,大规模多输入多输出(MIMO)技术引起了广泛的关注。通过在基站端(BS)配备大规模天线阵列,大
移动机器人的自定位问题是机器人领域的一个关键问题。摄像头作为移动机器人的“眼睛”,由于其体积小、成本低、应用场景广的特点而得到了广泛的应用。由于传统的定位手段比
随着航天测控通信中中低轨道卫星通信及临近空间高声速飞行器技术的发展,通信中的多普勒频移很大且存在很大的一次变换率,多普勒频移不消除对接收机性能有很大影响,BPSK直接序列
本文提出一种鲁棒的目标跟踪算法,本文算法基于稀疏表示理论,算法包括外观模型和运动模型的构建。因为目标跟踪主要的难点在于应对目标的剧烈的外观变化,本文提出一种鲁棒的
卫星通信系统正朝着高速、宽带、多信道、多模式的方向发展,软件无线电技术广泛的应用于卫星通信的设计当中,而中频数字化发射、接收机技术是软件无线电发展最为迅速的一项技术