论文部分内容阅读
麦克风阵列声源定位是利用麦克风组成的阵列来估计声源位置的技术,在日常生产与生活中有着广泛的应用。声源定位算法一般分为基于高分辨率谱估计,基于时延差估计和基于可控波束形成三大类,可控功率响应(SRP:SteeredResponsePower)算法是典型的基于可控波束的声源定位方法,在混响环境中具有较强的稳健性,但复杂的计算量限制了它在实时环境中的应用。因此,本文的研究目标就是在保持定位性能基本不变的前提下,减少SRP的计算量。
首先,介绍了传统SRP算法的原理,并做了一系列仿真实验,包括用Image算法仿真了房间脉冲响应,直观地演示了混响;仿真广义互相关(GCC:GeneralizedCrossCorrelation)算法,说明GCC由于麦克风个数较少,只能确定声源的一系列候选位置,且性能随混响增加而急剧下降;仿真传统SRP算法,直观演示了定位的结果,说明其在强混响环境中也能取得较好的定位效果。
其次,给出了三线快速SRP算法。该算法是一个由粗到精的声源搜索过程,在粗搜索阶段,估计出水平偏角和大致的径向距离,从径向距离中可以判断声源处于近场还是远场,在精搜索阶段则根据近远场采用不同的策略进一步搜索声源可能出现的位置。分析计算复杂度,三线快速SRP有效地减少了一个维度的计算量。TIMIT语音库的数据仿真和真实环境的数据仿真表明,三线快速SRP算法与传统SRP算法有着相当的定位性能。
最后,给出了基于时延差聚类的快速SRP算法,着重讨论了六种不同的聚类算法,分别是:k-means,k-medoids,isodata,GMM,谱聚类和层次聚类。该算法分成三个步骤:第一步是对时延差聚类,可以离线完成;第二步是对声源位置粗搜索,实际上就是分别计算所有聚类中心的SRP功率值,功率值最大的聚类即为声源可能存在的目标区域;第三步是在目标区域内对声源位置精搜索。分析计算复杂度,基于时延差聚类快速SRP的计算量比传统SRP的计算量要小很多。TIMIT语音库的数据仿真和真实环境的数据仿真表明,基于时延差聚类的快速SRP算法总能获得与传统SRP算法几乎不变的定位性能,对时延差进行谱聚类还会提升仰角的估计性能。
综上所述,两种快速SRP算法都极大地减少了所需的计算量,从而有效地提高了SRP用于实时定位的可能性。