论文部分内容阅读
语音是说话人发音时产生的信号,其包含语义信息、个性信息和情绪等多种自然信息,具有采集友好且方便的特点。语音转换技术就是对源说话人的个性特征参数进行转变,使其具有目标说话人的个性特征信息,并保持语音的语义信息不变。作为近年来说话人识别和语音合成技术高度发展后的延伸和拓展,语音转换技术受到国内外语音研究者的高度关注。随着语音转换技术的发展,语音研究者不再仅仅关注转换语音的可懂度和转换后的相似度,而更加强调转换语音音质的流畅性、自然度。对语音转换技术的研究有助于推动语音信号处理其他领域不断向前发展,可以作为医疗辅助,提高语音的质量,也可以丰富大数据处理和智能化人机交互,使人机交互更加自然,具有娱乐性和个性化。因此,对语音转换的研究其应用前景深远、理论研究价值巨大。本文针对语音转换技术开展了研究,主要研究内容如下:从语音产生原理入手,介绍了发音系统的数学模型及常用的语音特征参数,并对语音转换模型进行了简要介绍。本文中用于特征参数提取与合成的模型是AHOcoder模型,该模型可以同时提取出0log f、MFCC(梅尔倒谱参数)以及浊音最大频率。详细描述了GMM-双线性频率弯折加幅度压扩语音转换模型,分析了GMM的训练、双线性频率弯折加幅度压扩训练、转换流程及相关方面的理论知识。通过Matlab实验,对该模型与传统GMM模型、GMM-双线性频率弯折模型进行了主客观性能的比较,在这几种模型中该模型转换语音效果最优。重点研究了改进的GMM-频率弯折的语音转换模型。针对GMM模型中混合数固定,语音特征参数分类不合理的问题,在基于高斯混合模型的聚类过程中引入了迭代自组织聚类算法ISODATA,该算法具有较好的聚类特性,以此来得到更符合说话人个性特征参数的分类,进而改善转换语音的质量。迭代自组织聚类算法使用误差平方和作为聚类准则,设置初始值参数对“合并”和“分裂”操作进行判断,并根据拟合数据的分布,自调节得到最优类别数。这一聚类比传统GMM的K-Means聚类具有自组织的优势。经过迭代自组织聚类后再进行EM迭代,结合后续的双线性频率弯折实现语音转换。通过实验分析,该模型在客观评价方面,MCD值比GMM-双线性频率弯折加幅度压扩模型的低,在不同语料、不同转换情形下MCD值平均下降了1.49%,反映了该模型频谱的失真程度更低,转换语音与目标语音的频谱相似性更好;在主观评价方面MOS值比GMM-双线性频率弯折加幅度压扩模型的高,MOS值平均提高了5.13%,表明该模型转换语音的音质更优。理论分析和实验证明,该模型与GMM-双线性频率弯折加幅度压扩模型相比,转换后的频谱相似度和MOS值都更高,这表明该模型在个性相似性和合成语音音质方面都有一定性能的改进,实现了高质量的语音转换。