论文部分内容阅读
基于麦克风阵列的声源定位技术在工业、民用领域有广泛的应用前景。在室内办公环境下的定位研究,因其在智能监控、语音识别等领域的应用,具有一定的研究意义。因此本文研究室内办公环境下,声源的定位算法的改进及其实际定位性能。不论是算法仿真,还是实际定位应用,都需要事先判别出声源的个数,进而再完成声源位置的定位估计。在单声源下,传统定位算法在理想仿真环境下性能表现良好,而在实际应用中因抗噪声混响性能差导致误差较高定位性能下降;在多声源下,除了环境噪声及混响会导致定位性能降低外,声源信号间的相互干扰也是影响定位性能的重要因素。因此,本文首先采用盖尔圆盘法识别室内说话人声源个数,针对单人在室内发声,提出联合噪声掩蔽函数广义互相关相位加权改进算法(generalized cross correlation ameliorated phat,GCC-APHAT),该算法是将相位加权优化,并联合噪声掩蔽函数,通过锐化互相关函数峰值提高估计性能;针对多人在室内讲话发声,提出基于延迟求和波束形成联合频点选择及加权协方差矩阵的改进算法(modify delay and sum beamforming,MDSB),它首先利用频点选择消除宽带波束形成时产生的栅瓣影响,进而用相位加权函数对数据协方差矩阵进行处理,进一步提高算法定位性能;最后在实际室内环境下通过声源采集平台真实的话音信号,验证所提改进算法的有效性。本文完成的主要工作如下:(1)麦克风阵列定位技术理论基础。介绍了定位算法中常用的预处理方法及声源信号传播过程中不同的信号模型,并简要介绍了麦克风阵列中的近远场模型及其阵列拓扑结构。叙述分析了三大类经典的声源定位技术,最终分别选择了基于广义互相关时延估计的定位技术和延迟求和波束形成技术作为本文的主要的研究基础。(2)声源数目识别两大准则:Akaike信息论和最小描述长度准则的概述,并对二者优缺点进行阐述。分析了盖尔圆盘法信源数目识别原理,通过仿真及实际实验对比分析估计性能,确定盖尔圆调整因子。(3)在声源个数判别为单源的情况下,介绍广义互相关算法的原理以及几种常用加权函数;针对真实环境下声源定位精度较低的问题,本文提出GCC-APHAT算法对噪声信号频率分量进行抑制,并增强语音信号频谱权重,再利用有效帧平均的思想对时延估计函数平滑处理。在实验中对比GCC-PHAT和MCPSP算法,结果表明GCC-APHAT算法在不同混响、噪声环境下相对于其它两种算法有着更好的鲁棒性。(4)在判别声源个数为多源的情况下,介绍延迟求和波束形成DSB算法原理以及语音宽带波束形成模型。讨论了宽带语音在多声源定位时波束形成产生的栅瓣旁瓣对定位结果的影响,并提出在DSB算法上联合频点选择及加权协方差矩阵的MDSB算法。该方法利用语音信号频率和麦克风间距来改进宽带波束形成器中子段内的频点选择,使得算法总运算量大大降低,而且消除了旁瓣栅瓣的干扰影响;之后对数据协方差矩阵进行处理相位加权处理,进一步提高算法鲁棒性,并通过实验对比原始DSB和平滑DSB算法,结果表明MDSB算法有着稳定的定位性能,鲁棒性更好。(5)搭建实际室内环境的声源采集平台,通过对真实话音的分析,验证实际声源的定位性能,结果表明,GCC-APHAT和MDSB算法在真实办公会议室下都具有较好的定位性能。