论文部分内容阅读
随着麦克风阵列信号处理技术的不断发展和完善,各种新的理论和新的方法不断被提出。现在,麦克风阵列技术已经广泛应用于电话会议、室内外语音通信、人机语音交互等系统中。基于双麦克风的室内多声源信息感知系统,相比基于麦克风阵列或麦克风网络的系统,具有体积小、功耗少、成本低等特性,更适合智能产品小型化的发展趋势。然而,基于双麦克风的系统采集的信号样本维度比声源数量少(欠定问题),空间信息相对较少,可利用的其他信息也相对较少,如何在欠定情况下融合有限的信息,成为了研究的重点。因此,本文探讨双麦克风条件下的欠定混合信号的语音分离和声源定位问题,基于语音信号的时频特征和双麦克风的空间位置信息,提出了基于双麦克风的室内语音分离与声源定位系统。本文的主要工作为:1、针对传统的DUET(Degenerate Unmixing Estimation Technique)算法,为了进一步提高源信号的分离质量,对其进行了改进。首先,针对混合参数估计不精确的问题,利用MCFT(Multiresolution Common Fate Transform)变换代替STFT(Short-Time Fourier Transform)变换进行时频表示来构建二维直方图。其次,针对理想二进制时频掩码在分离时所产生的部分时频点丢失的问题,利用Gammatone滤波器将二进制时频掩码进行平滑处理,从而更好的重建源。本文采用SDR(Source to Distortion Ratio)、SAR(Source to Artifacts Ratio)和SIR(Source to Interferences Ratio)为评价指标,实验结果表明改进后的DUET算法与目前已有的算法相比,分离性能显著提升。2、为了探究利用两个麦克风进行多声源分离和二维平面定位的可能性,提出了一种基于双麦克风的室内语音分离与声源定位系统。系统根据麦克风采集的信号,建立了双麦克风时延-衰减模型,然后利用DUET算法估计了模型的时延-衰减参数,并绘制了参数直方图。在语音分离阶段,建立了二进制时频掩膜(Binary Time-Frequency Masking,BTFM),根据参数直方图,结合二值掩蔽的方法对混合语音进行了分离。在声源定位阶段,通过推导模型衰减参数与信号能量比之间的关系,得到了确定声源位置的数学方程组。利用Roomsimove工具箱模拟室内声学环境,通过MATLAB仿真和几何坐标计算,在对多个声源目标分离的同时完成了二维平面中的定位。实验结果表明,该系统对多个声源信号的定位误差均在2%以下。