论文部分内容阅读
近年来随着语音合成技术的不断发展,基于HMM(Hidden Markov Model)的参数语音合成方法逐渐成为当前的一个研究热点。这种方法具有合成语音平滑流畅、系统构建自动化程度高、存储尺寸小、模型灵活性强等优点。但是由于参数合成器的使用,其合成语音的音质相对传统的单元挑选与波形拼接方法存在一定的不足。在这种背景下,一种对语音有较好的分析能力、较高的合成质量、较快的分析速度和较强的韵律调整能力的参数语音合成器具有十分重要的意义和极高的实用价值。
本文对基于正弦模型的参数分析合成器进行了系统和深入的研究,改进了正弦分析合成器的各项性能。具体的研究工作如下:
第一:对传统正弦模型进行分析和改进,提高了正弦参数提取的准确度和运算效率。引入STRAIGHT分析中去除周期影响的谱估计思想,在最小均方误差准则(MSE)下,通过矩阵计算,去除了分析窗的影响,从而使各正弦分量的幅度和相位能够被更加准确的提取出来。对正弦参数分析方法中的矩阵运算流程的进一步研究与改进,极大的提高了分析端正弦参数提取和谱估计的效率。改进后的正弦分析算法无论在恢复语音的音质还是在运行效率上都超过了目前最常用的STRAIGHT分析算法。
第二,针对语音的相位卷绕和平滑问题开展了深入的研究,提升了正弦模型的韵律调整能力。引入去除激励线性相位的方法解决相位卷绕问题,并尝试使用不同的线性相位估计方法达到最佳的相位谱平滑效果,从而使正弦合成器获得了比较良好的韵律调整能力。在合成端通过加入帧对齐方法,一方面解决了调整带来的相位不连续问题,一方面进一步改善了去除线性相位的效果。
最后,首次将正弦模型与基于HMM的可训练合成系统(HMM-based Trainable TTS)相结合,建立了一个完整的可训练参数合成系统。对该系统下正弦模型的参数建模和训练算法进行了探索性研究。提出参数直接建模和包络建模两种方法,并针对正弦参数和幅度谱、相位谱各自的特点对建模算法做出改进。验证了正弦模型与基于HMM的可训练参数合成系统相结合的可行性,为下一步工作奠定了基础。