论文部分内容阅读
本文从听觉心理的角度出发,研究了语音信号中反映人类听觉感知的特征参数,目的在于使计算机能够更好的模仿人耳对声音的感知,模仿人耳在声音中能提取自己感兴趣的信息的能力。这种应用于语音处理的听觉心理的研究可以广泛应用在语音编码质量评价、通信网络质量评价、人机交互式的家电、玩具、身份识别、权限验证等等方面,能够大大提高计算机为人类工作的能力和方便性。
本文主要的研究工作包括:
1.研究了语音处理的听觉心理因素。探讨了听觉心理与物理的关系,寻找出能反映各种听觉特性的语音特征参数,让参数矢量模拟人的感知。
2.在前人所用过的方法的基础上,提出了几种用于客观音质评价的新方法。包括基于听觉要素的Mel谱测度(HFCC),频率加强MFCC测度,频率带距离测度,以及基于听觉感知的改进滤波器的BSD测度。本文通过AMR、MP3编码语音主客观评价实验、纯音失真测度实验、双频失真测度实验等证明,这几种测度方法不但提高了主客观评价结果的相关度,而且对频率失真的敏感度也比前人所用的方法要高。
3.分别根据语义识别和说话人识别的不同要求,以模拟人类听觉感知特点为出发点,提出了孤立字识别和说话人识别的改进方法。主要是研究了它们对特征参数的选择和处理。前者改进了聚类方法,使语义识别结果不会因语音能量的变化而容易发生变化;后者则综合LPCC、HFCC、ERBBSD等几种能反映听觉心理不同特性的参量进行说话人确认。本文通过新旧特征和方法的识别比较实验证明,改进后的基于听觉心理的识别方法,都能获得更高的识别准确率。
本文的研究工作证明,对反映听觉心理的特征参数的选择和处理问题能直接影响到语音处理系统的性能。如果能让计算机更好的模拟人类的感知能力,将会有更广的应用前景。