基于可控功率响应的声源定位快速算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:songfenhao3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
麦克风阵列声源定位是利用麦克风组成的阵列来估计声源位置的技术,在日常生产与生活中有着广泛的应用。声源定位算法一般分为基于高分辨率谱估计,基于时延差估计和基于可控波束形成三大类,可控功率响应(SRP:SteeredResponsePower)算法是典型的基于可控波束的声源定位方法,在混响环境中具有较强的稳健性,但复杂的计算量限制了它在实时环境中的应用。因此,本文的研究目标就是在保持定位性能基本不变的前提下,减少SRP的计算量。   首先,介绍了传统SRP算法的原理,并做了一系列仿真实验,包括用Image算法仿真了房间脉冲响应,直观地演示了混响;仿真广义互相关(GCC:GeneralizedCrossCorrelation)算法,说明GCC由于麦克风个数较少,只能确定声源的一系列候选位置,且性能随混响增加而急剧下降;仿真传统SRP算法,直观演示了定位的结果,说明其在强混响环境中也能取得较好的定位效果。   其次,给出了三线快速SRP算法。该算法是一个由粗到精的声源搜索过程,在粗搜索阶段,估计出水平偏角和大致的径向距离,从径向距离中可以判断声源处于近场还是远场,在精搜索阶段则根据近远场采用不同的策略进一步搜索声源可能出现的位置。分析计算复杂度,三线快速SRP有效地减少了一个维度的计算量。TIMIT语音库的数据仿真和真实环境的数据仿真表明,三线快速SRP算法与传统SRP算法有着相当的定位性能。   最后,给出了基于时延差聚类的快速SRP算法,着重讨论了六种不同的聚类算法,分别是:k-means,k-medoids,isodata,GMM,谱聚类和层次聚类。该算法分成三个步骤:第一步是对时延差聚类,可以离线完成;第二步是对声源位置粗搜索,实际上就是分别计算所有聚类中心的SRP功率值,功率值最大的聚类即为声源可能存在的目标区域;第三步是在目标区域内对声源位置精搜索。分析计算复杂度,基于时延差聚类快速SRP的计算量比传统SRP的计算量要小很多。TIMIT语音库的数据仿真和真实环境的数据仿真表明,基于时延差聚类的快速SRP算法总能获得与传统SRP算法几乎不变的定位性能,对时延差进行谱聚类还会提升仰角的估计性能。   综上所述,两种快速SRP算法都极大地减少了所需的计算量,从而有效地提高了SRP用于实时定位的可能性。
其他文献
Femtocell又称毫微微小区,或家庭基站,是一种小型低功率基站,覆盖范围为10-50m,主要用于解决室内覆盖问题,具有接入简单、低功耗、低成本等特点。在家庭基站和宏基站的频率资源分
网络编码自提出以来,已在理论上证明可以带来诸多好处,如大幅增加网络的容量,使分布式系统的设计更为简化。然而,目前实际系统中却很少采用网络编码技术,主要存在的问题有:引
视频的镜头类型是视频底层特征和高级语义之间的桥梁,能有效弥补两者之间的鸿沟,有助于视频精彩事件检测,促进创建视频摘要,进而满足用户快速查询和浏览视频的要求。现有视频语义
外辐射雷达系统可以利用不同体制的军用和民用电磁信号来实现定位,其自身不需要辐射电磁信号而具有较强的“隐蔽性”和“先发制人”的能力,在现代战场中,具有较高的抗打击能
SAR(合成孔径雷达)凭借其探测距离远、受气候和光线影响小等诸多优点,在国防军事上和人民生活中发挥着重要作用[1]。SAR成像需要处理的数据规模庞大,运算量大,难以实现高帧率
在人与人的交流中,信息并不完全来自于语言,还有一些从人脸得到的视觉上的信息也是非常重要的,如交流对方的性别,年龄,情感等等。所以近年来越来越多的研究人员开始研究这方面的课
建筑物透视雷达多目标跟踪系统可以最大限度地感知探测区域如目标个数、实时位置等相关信息,为灾难救援、刑事执法抓捕、反恐监视侦察等方面的决策人员制定后续相应决策提供
目前,WCDMA已成为当前世界上采用的国家及地区最广泛的,终端种类最丰富的一种3G标准。本课题就是对WCDMA侦收机进行设计和实现。WCDMA侦收机的功能包括获取小区广播信息和用
足球比赛持续时间长,视频数据量庞大,由于观众感兴趣的精彩事件占据比赛视频的比例较小,足球视频精彩事件自动检测便成为视频语义分析领域研究的热点和难点。目前常用的事件检测
随着互联网的普及和移动通信的发展,尤其是现在高速移动网络的形成,人们对于视频通信业务的需求越来越大,如视频会议、视频监控、视频电话等。它改变了传统的通信模式,带给我