论文部分内容阅读
声源定位与跟踪(ASLT,AcousticSourceLocalizationandTracking),即根据说话人的声音信息去判断说话人的位置信息,这是人机交互中一个非常重要的课题,它可以被广泛的应用于多媒体系统,视频监控系统,视频会议系统以及智能机器人系统,数字助听器等等领域,并且该技术还是这些系统中的核心的课题和技术。例如,视频会议系统中,该技术可以控制摄像机使得摄像机实时的对准和跟踪当前说话人;数字助听器中,该技术可以自动检测说话人的方位并自动指向说话人,实现说话人的声音的定向放大并屏蔽掉无关的噪声。实际的声源环境中,往往会有一些各种各样的噪声,比如空调、电灯以及无关的人声,还有一些由于桌面墙壁引起的反射和混响,都会影响声源定位与跟踪系统的性能。本文研究了声源定位的传统方法以及粒子滤波及其重采样的方法,在此基础上研究了基于粒子滤波的声源定位与跟踪方法的一个通用框架下的四种方法,并在框架中SBF-PL的方法的基础上提出了一种基于可控波束粒子滤波的麦克风阵列的声源定位与跟踪的改进方法。该方法在粒子滤波框架下,以可控波束形成(SBF,SteeredBeamForming)作为了观测信息,通过SBF函数来构建似然函数,从而实现了声源的跟踪和定位。由于标准粒子滤波中的粒子退化问题,本文通过设置阈值的重采样算法来防止粒子退化。实验结果表明,本文提出的方法有效的提高了声源定位和跟踪系统的定位和跟踪能力。