论文部分内容阅读
如何识别说话人情感是目前语音技术领域中一个比较热门的话题。有许多学者对情感语音特征提取和自动情感分类进行了研究,并提出了许多方法,但是目前语音情感识别的效果远低于人们所期望的识别结果。针对这个问题,本文提出了一种新的语音情感识别方法——基于多权值神经网络的语音情感识别。本文首先提出了特征空间样本点的图几何理论以及图几何理论中的有关性质,通过图论的概念,研究了特征空间样本点的性质,在凸胞的基础上提出了有关子图的运算方法,并且利用子图的空间样本点之间距离作为权值提出基于图几何理论的多权值神经元。对情感语音的特性进行了探讨,对特征向量的提取、数据信息的压缩处理等语音的前处理方法进行研究。参考大量的情感语音理论,根据各个情感特征参数对于语音情感识别方面的影响程度,最终确定了最具有影响力的特征参数作为语音情感识别的特征参数,对预处理后的语音信息进行特征提取,并提出了各特征参数的具体算法。然后根据特征参数研究了基于多权值神经元的语音情感识别的训练和识别算法,通过相关的实验论证了该方法的可行性。与SVM方法相比较的实验结果表明,随着样本数量的增多,两种方法的识别率之间的差距也会慢慢减小,当样本数量趋近无穷时,它们的正确识别率都会渐渐逼近一个峰值。但在神经元个数足够的前提下,基于多权值神经网络的情感语音识别方法的正确识别率仍将高于SVM模型方法的识别率,这是因为基于多权值神经网络的方法描述的是情感语音特征样本点在高维空间的形态分布,而SVM模型方法却仅仅是一种在高维空间中非线性划分的方法,尤其在小训练样本的情况下,由于划分所需的支持向量有限,其精确程度自然不如多权值神经网络的方法。