论文部分内容阅读
本文主要研究了基于麦克风阵列的声源定位及语音增强的关键技术并实现算法。声源定位是语音增强的前提,因此准确获取声源的方位信息显得至关重要。 论文首先详细阐述了基于相位变换加权的广义互相关(GCC-PHAT:GeneralizedCrossCorrelation-PhaseTransform)时延差估计法、基于相位变换加权的可控响应功率(SRP-PHAT:SteeredResponsePower-PhaseTransform)声源定位算法。然后,论文详细介绍了基于波束形成的延迟累加波束形成(DSB:Delay-SumBeamforming)语音增强算法的原理。在此基础上,给出了系统定位、增强部分的软件流图:将SRP-PHAT算法从空间和频域角度离散化,实现了SRP-PHAT-D(SRP-PHATAlgorithmBasedonDiscreteTimeDelay)算法,利用定位结果获得时延矢量参数,并将时延矢量参数传递给DSB算法,实现语音增强。其中,为提升运算效率,计算GCC-PHAT时,我们引入了FFTW(FasterFourierTransformintheWest)库函数做傅立叶变换。 本文采用4个全向麦克风构成半径为10cm的均匀圆阵。结合NIPXI4498采集设备及PC处理机搭建了一个实时的语音增强系统,并给出了在实际环境中的测试结果。论文采用PESQ(PESQ:PerceptualEvaluationofSpeechQuality)标准评估语音质量。测试表明SRP-PHAT算法在高信噪比、中度混响环境下,有着较好的性能;在信噪比分别约为-5dB,0dB,5dB,10dB的实际环境中,DSB算法均有着不同程度的性能提升,达到了预期效果。