论文部分内容阅读
近年来,数字多媒体技术得到了迅猛发展。声音是人类交流的重要途径,以音频的形式充斥在人们的日常生活中。通常,人们需要通过分辨周围发生事件的声音来判断当前所处环境,于是声学事件检测技术应运而生,且得到了研究者们的重视。对于一段录音设备所采集到的音频数据,如何判断声学事件发生的时间,以及具体发生了什么事情,是声学事件检测技术的研究关键点。本文主要对声学事件检测相关技术进行了研究,主要工作如下:(1)针对目前声学事件检测领域中端点检测技术不够成熟的问题,提出了一种基于MFCC倒谱距离和短时能量距离结合的端点检测算法。音频信号的时域特征能够直观地描述音频信号的波形,而频域特征可以反映信号本身较为详细的细节信息。结合音频信号在时域和频域中的描述,我们分别计算音频信号的频域特征梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)和时域特征短时能量与噪声平均值的距离,分别对MFCC倒谱距离和短时能量距离设置阈值,综合两种特征距离判决最终的声学事件检测结果,得到检测结果。实验结果表明,该算法可以解决声音特征信息量不足导致噪声段界限划分不清晰的问题,在低信噪比情况下,与经典的双门限法对比,最高可将F分数提高0.245;与文献[26]对比,在降低了计算复杂度的同时,最高将F分数提高了0.2。(2)考虑到声学事件的声源多样性和传播的不稳定性,提出了一种基于经验模态分解(Empirical Model Decomposition,EMD)和Gammatone倒谱系数(Gammatone Frequency Cepstral Coefficients,GFCC)的声学事件检测算法。首先,音频信号经过EMD分解后得到若干基本模式分量(Intrinsic Mode Function,IMF),通过计算相关系数来筛选主要分量,然后,分别提取这些IMF分量的GFCC作为特征参数,生成EGFCC(EMDGFCC),这样可以减少音频在提取特征时的数据流失,保留更多细节信息。最后,选用高斯混合模型(Gaussian Mixtrue Model,GMM)作为分类器输出声学事件识别分类结果。实验表明,EGFCC与时域特征结合更加贴近人耳的频率选择特性,对比文献[23],将识别率提高了4.45%。在强噪情况下,与文献[24]相比,在性能相当的情况下降低了计算复杂度,且提高了抗噪性能;与文献[26]相比,降低了计算复杂度,且将F分数提升了0.187。