论文部分内容阅读
除了语义信息,人类语音还传达着情感信息,同一句话传达的信息可能会因为情感的不同而不同,语音情感转换即是在保持语义不变的基础上,将一种情感转换成另一种情感,具有深远的应用意义。本文基于EMO-DB和DES两大公开情感语音库对情感语音特征进行分析,并针对谱特征和韵律特征是情感特征的两大关键因素,提出了谱-韵律双变换的语音情感转换,弥补了传统语音情感转换只着重于转换其中一种特征的不足。在谱特征转换阶段,通过分析不同谱特征参数和谱特征转换模型优缺点,本文选用GMM (Gaussian Mixture Model)作为模型,LSF (Line Spectrum Frequency)作为谱特征参数进行转换,基于STRAIGHT平台合成情感语音。在韵律特征转换部分,不同于以句子为单元分析韵律的传统方法,本文针对语音信号韵律特征的时变性,提出了PTR (Prosody Transformation Rule)算法对多种韵律特征(包括时长、音强和基频)进行局部分析转换以提高转换效果。同时针对重音能加强愤怒语音的情感,而基频对重音的影响最大的情感分析结果,本文在PTR基础上进行改进,提出PTR结合单高斯的算法来调整愤怒语音的局部基频从而达到愤怒语音带重音转换的效果。本文对转换后的情感语音做了基于ABX和MOS的主观评测,评分结果表明本文提出的方法达到了很好的语音情感转换效果,带重音转换的愤怒语音情感相对得到提高,同时本文通过采用支持向量机对转换后的语音自动分类来进行客观评测,评测结果达到了78.25%的正确率。