论文部分内容阅读
近年来,人机交互领域,特别是在智能语音助手方面(如Siri,Cortana,Google Assistant)取得了巨大的进步,但我们仍然难以自然地与机器通信。语音情感识别正逐步成为人机交互领域的最新趋势之一。一般认为语音情感在人机交互中不可或缺,因为它给出了语境信息,体现了说话人的意图,有助于机器更好地理解人类的语音。然而,我们还不清楚哪种语音特征能够更有效地表征语音的情感,这也是语音情感识别在技术上的挑战性问题。本研究的目的是为了探索有效的语音特征以便进一步提升语音情感识别准确率。传统的语音情感识别是使用具有经验性的语音感知特征来区分情绪。近年来,卷积神经网络(CNN)在从原始语谱图挖掘深度信息方面表现出了强大优势,但是基于感知特征的先验知识没有像传统方法那样被充分利用。为了解决这个问题,我们提出了一种新颖的特征组合策略,即同时利用综合语谱信息和先验知识。首先,我们将基于先验知识的低级声学特征(LLDs)按时间排列为时间序列LLDs,以便CNN进行的有效学习。接下来,将时间序列LLDs和原始语谱图融合为组合语谱特征(CSF)。为了进一步增加全局和动态信息,在CSF上添加了统计特征生成优化语谱特征(RSF)。然后,将组合特征以二维(2-D)图像的形式输入到CNN以提取分层特征。最后,使用双向长短期记忆(BLSTM)来利用上下文情境信息并区分情绪。我们的结果表明,与原始语谱图相比,CSF和RSF相对误差率分别降低了32.04%和36.91%。因为男女表达情感的方式会有些不同,性别信息被广泛地用于提高语音情感识别的性能。由于仅用独热编码等简单的编码方式不能有效地利用性别信息,因此我们提出了分布式性别特征和性别驱动特征。分布式性别特征主要反映了男女的分布和个人差异;性别驱动特征通过深度神经网络(DNN)从声学信号中提取。这两种特征分别和语谱图融合,然后通过CNN-BLSTM模型做最后的分类。在语谱图的基础上,分别添加了分布式性别特征和性别驱动特征使得相对错误率分别降低了14.04%和45.74%。