论文部分内容阅读
人耳接收的声音信号通常是复杂的,它由来自不同声源的若干声音信号混合而成,但人的听觉系统却通常能够从中提取出自己感兴趣的声音并加以跟踪,这种奇特的信息处理能力是任何机器都无法比拟的。对于听觉信息处理机制的研究是人脑认知研究领域中的一个重要组成部分,而且它对于自动语音识别技术和说话人识别技术都有着重要的指导借鉴意义。本工作基于心理物理声学层面研究了在复杂听环境下人类听觉语音信息处理机制的如下三个方面。在复杂听环境中到达人耳的声音信号由目标音和背景掩蔽音混合而成。已经有研究证实听者对目标语音线索的先验知识有助于听觉系统更好地将目标语音从背景掩蔽音中分离出来。然而,很少有研究关注掩蔽音线索对听觉系统识别目标音的影响。本文的第一个工作通过心理声学实验研究发现事先对听者短时提示掩蔽音不仅不能提高反而降低了听者对目标语音的识别能力。研究说明听者对掩蔽音的短时先验知识增强了信息掩蔽效应,且将听者的注意力部分地引向掩蔽音,从而使听者对目标语音的识别变得困难。我们得出结论,人类听觉系统仅仅有对短时熟悉目标音信息增强处理的能力,而没有对短时熟悉掩蔽音信息抑制处理的能力。人耳接收的语音信号都具有显著的统计特征,组成语音信号的不同音素在自然听环境中出现的概率不同。本文的第二个工作通过心理声学实验研究了人类听觉系统在说话人识别过程中对不同出现概率的汉语单元音声信号的感知和处理机制。实验结果显示被试在说话人识别过程中对低概率元音的感知和反应比对高概率元音的强,说明低概率元音比高概率元音携带更多的说话人信息。该实验同时说明听觉系统在说话人识别过程中对元音信号进行非均匀权重处理,其中低概率元音信号被精细编码而高概率元音信号被粗糙编码,从而能充分有效地利用有限的神经资源,使有用的说话人信息传输最大化。该工作为信息理论在听觉系统处理机制中的应用及神经系统高效编码理论提供了人的认知行为上的心理声学实验依据。人类听觉系统对声音信号具有敏锐的感知能力,能精细分辨出微秒量级的双耳时间差。而听觉神经信号本身却相对粗糙,其时间分辨率大于毫秒量级且时序模式不稳定。“为什么粗糙和不稳定的神经信号最终能转化成精确的时间信息”一直都是人们感兴趣的问题。本文的第三个工作利用Adelman-FitzHugh神经元模型进行数值计算,证明了噪声虽然能让神经信号不稳定,但同时也能让神经信号同步。这种噪声诱导的神经信号的不确定性和同步能用来解释听觉系统表达精确时间信息的机制。以上研究工作对人类听觉系统信息处理机制提供了有益的人的认知行为上的心理物理声学实验依据以及可供参考的理论解释。