论文部分内容阅读
听力损失会严重影响老龄患者的身心健康,佩戴助听器是目前老龄患者改善听力最有效的手段。然而即使在欧美等发达国家,老龄患者佩戴数字助听器的比例也只达到1/3左右,这说明目前助听器技术仍然存在一些亟待解决的问题,如多声源场景下语音理解困难、语训效果差等。在中国,庞大的老龄听损人口、落后的助听器技术、以及汉语与英语本身的差异性,都使得汉语数字助听器技术研究面临严峻的挑战。因此,研究面向汉语,面向老龄患者的助听器算法具有急迫的现实意义。
在国家自然基金的资助下,本文以老年康复的重点领域和主题为研究内容,以我国老年康复面临的挑战对科技提出重大战略需求为重点,对面向老龄患者的助听器设计理论及方法进行了深入研究。研究以轻-重度老龄听损患者为对象,以助听器设计中存在的关键问题为方向,在方向性语音增强和降频助听算法方面取得了一些研究成果:
1、提出一种基于麦克风阵列的声源定位算法。算法基于声源位置在定位空间中的稀疏性的假设,利用差分麦克风阵列提取振幅差异构建信号模型。在此基础上,算法采用自适应次梯度投影算法来重构声源位置信号,然后通过评估重构信号的能量峰值位置,获得多声源位置。仿真实验证明,同基于高分辨率谱估计的定位算法相比,该算法的鲁棒性和精度都得到了提高。在声源定位算法获得目标声源的空问位置的情况下,算法可结合零陷线性约束最小方差波束形成器将波束方向指向目标声源,从而抑制干扰声源。仿真实验证明在无共振和有共振环境下,该方案都取得了信干比的提升。
2、基于人耳听觉特性,提出一种双耳声源定位算法。该算法基于双耳时间差,并结合头相关函数模型估计声源位置。为提高算法可靠性和精度,算法首先模拟耳蜗基底膜的频率选择性,将语音信号进行多频段分解。然后,通过模拟人耳的优先效应,算法设置相关值门限,提取语音信号中的优先信号来评估双耳时间差。最后,算法利用参数化的声源定位模型进行声源位置估计。实验结果显示,算法对于声源位置和声源个数的估计较准确,并有一定的抗干扰性能。此外,由于该算法可以结合助听器的多通道响度补偿算法,所以其计算量较小,比较适合应用于助听器中。
3、提出基于人耳听觉感知特性的非线性频率压缩算法。非线性频率压缩算法是一种较先进的降频助听算法,但是如何选择频率压缩因子,一直是一个研究重点。本文在前人研究的基础之上,提出了一种结合人耳听觉特性的非线性频率压缩算法。算法基于正弦模型获取信号特征,并根据人耳对不同频段的语音理解度调整频率压缩比例。此外,为改善移频后的信号包络,本研究还引入相位补偿方法。在汉语语音理解度实验中,10个受试者的平均理解率提高20%-35%。
4、通过分析现有算法在汉语识别中的不足,并结合生活实际,提出一种自适应慢放频移算法。算法根据信号频谱分布决定慢放因子,然后将慢放后的信号进行频移。该算法只对小部分语音做慢放处理,提高了识别率,对大部分语音保持不变,保持了时域同步性。而对于其它高频能量较高的非语音,算法也能以合适的慢放因子进行降频,提高声音的可听性和理解率。此外,通过分析噪声和含噪信号间的频谱关系,本文提出一种噪声情况下的慢放因子估计方法,增强算法的鲁棒性。实验结果显示,受试者的声音理解率提高15%到20%。
综上所述,本文针对老龄听损患者的听力缺失特点,研究了以提高言语理解度为目的的数字助听器语音处理算法。由于应用的特殊性,目前国内外对该领域的研究都还处于起步阶段,存在一些需要进一步深入研究的问题,例如助听器仿生技术、汉语或其他语言特征对听损患者理解语言的影响、自适配技术和认知补偿技术等。针对这些问题的进一步研究,将提高数字助听器语音处理算法性能,促进数字助听器产业的发展,提高听损患者的听力矫正水平,进而改变我国在康复治疗领域的落后现状。