面向语音情感识别的有效组合特征的分析与模型验证

来源 :天津大学 | 被引量 : 0次 | 上传用户:mhb0512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人机交互领域,特别是在智能语音助手方面(如Siri,Cortana,Google Assistant)取得了巨大的进步,但我们仍然难以自然地与机器通信。语音情感识别正逐步成为人机交互领域的最新趋势之一。一般认为语音情感在人机交互中不可或缺,因为它给出了语境信息,体现了说话人的意图,有助于机器更好地理解人类的语音。然而,我们还不清楚哪种语音特征能够更有效地表征语音的情感,这也是语音情感识别在技术上的挑战性问题。本研究的目的是为了探索有效的语音特征以便进一步提升语音情感识别准确率。传统的语音情感识别是使用具有经验性的语音感知特征来区分情绪。近年来,卷积神经网络(CNN)在从原始语谱图挖掘深度信息方面表现出了强大优势,但是基于感知特征的先验知识没有像传统方法那样被充分利用。为了解决这个问题,我们提出了一种新颖的特征组合策略,即同时利用综合语谱信息和先验知识。首先,我们将基于先验知识的低级声学特征(LLDs)按时间排列为时间序列LLDs,以便CNN进行的有效学习。接下来,将时间序列LLDs和原始语谱图融合为组合语谱特征(CSF)。为了进一步增加全局和动态信息,在CSF上添加了统计特征生成优化语谱特征(RSF)。然后,将组合特征以二维(2-D)图像的形式输入到CNN以提取分层特征。最后,使用双向长短期记忆(BLSTM)来利用上下文情境信息并区分情绪。我们的结果表明,与原始语谱图相比,CSF和RSF相对误差率分别降低了32.04%和36.91%。因为男女表达情感的方式会有些不同,性别信息被广泛地用于提高语音情感识别的性能。由于仅用独热编码等简单的编码方式不能有效地利用性别信息,因此我们提出了分布式性别特征和性别驱动特征。分布式性别特征主要反映了男女的分布和个人差异;性别驱动特征通过深度神经网络(DNN)从声学信号中提取。这两种特征分别和语谱图融合,然后通过CNN-BLSTM模型做最后的分类。在语谱图的基础上,分别添加了分布式性别特征和性别驱动特征使得相对错误率分别降低了14.04%和45.74%。
其他文献
目的:本课题运用赵氏雷火灸结合针刺治疗神经根型颈椎病,以期优化神经根型颈椎病的中医治疗方案,丰富治疗手段,提高保守治疗的疗效,对防治神经根型颈椎病提供一种安全有效,符合临床实际,便于操作的治疗方法。方法:病例来源于2018年7月31日-2018年12月31日在广州中医药大学第一附属医院针灸科门诊及中医特色治疗门诊就诊以及通过各种形式招募的神经根型颈椎病患者,选取符合纳入标准的60例患者随机分为治疗
目的:观察研究揿针联合青敷膏治疗乳痈初期的临床疗效。方法:将符合纳入标准的乳痈初期(哺乳期急性乳腺炎)患者60例采用SPSS中的随机数字表分为对照组及治疗组,各30例。对照