论文部分内容阅读
目前公共场所安全监控主要以视频监控为主,但视频监控因天气或遮挡原因存在监控盲区。异常事件发生时产生的异常声音,包含异常事件大量的相关信息,因此音频监控可以作为视频监控的合理补充,这已经成为公共安全监控领域研究的发展方向。现有的音频监控系统仅为简单的声音采集、传输等,缺乏对异常声音的有效识别,原因是音频监控核心理论及技术没有得到突破。本课题涉及的公共场所异常声音特征提取是音频监控智能化的核心技术。因此,对本课题的研究具有重要的社会意义及研究价值。公共场所异常声音特征提取方法大多采用语音信号处理的典型参数或几种参数的组合,如短时过零率、短时平均能量、梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)等,在一定范围取得较好的效果。但是由于异常声音信号的特殊性,上述参数提取特征的效果有很大局限。近年来出现的局部均值分解(Local Mean Decomposition,LMD),是处理非线性、非平稳信号的较好方法,目前已成功的应用于机械故障诊断、脑电波分析、地震信号分析等领域。为此,本文首先根据公共场所异常声音的特性,对LMD存在的端点效应及分解耗时问题开展理论分析,提出相关改进措施;其次,提出自适应加噪,通过引入噪声来缓解LMD的模态混叠问题,并提出一种用于公共场所异常声音特征提取的自适应噪声的完备总体局部均值分解(Complete Ensemble Local Mean Decomposition with Adaptive Noise,CELMDAN)方法。通过相关验证实验表明,相比于传统的MFCC及其它时频分析方法,本文提出方法有更好的特征提取能力,对爆炸声、尖叫声、枪声和玻璃破碎声等四类异常声音的识别率也更高。本文开展的主要工作如下:(1)对LMD的端点效应及分解耗时问题进行理论研究,提出相关改进方法。1)公共场所异常声音信号具有极值点间距较小且分布紧密的特点,通常由于端点检测等预处理操作,异常声音信号的端点不是极值点,而LMD直接以端点值作为极值的处理方式是不合理的,其结果是生成的乘积函数(Product Function,PF)分量在两端出现虚假成分,随着分解过程的进行,这种失真现象从信号两端蔓延到中间,造成分解结果失真,即端点效应问题。为此,本文提出一种边界处理方法,准确估计待分解信号端点处的极值信息,从源头上避免由于该位置极值信息失真而造成分解结果出现端点效应。本文在模拟信号上进行的实验表明,提出方法是有效的。2)公共场所异常声音信号具有上下波动频繁、局部信息丰富的特点,而LMD的滑动平均过程不仅耗时而且易造成信号的某些局部信息损失。为此,本文采用线性插值过程代替LMD的滑动平均过程,在保证信息完整性的同时降低运算量。此外,异常声音信号持续时间较长且主要信息包含在高频部分,而LMD方法的乘积函数PF分量阶数及筛选次数不确定都会造成分解耗时,同时也会影响分解效果。为此,本文通过LMD大量分解结果的统计分析,解决PF分量阶数不确定的问题,并将分解结果作为筛选次数的反馈评估,选择与最佳分解结果对应的筛选次数,在减小LMD分解耗时的同时避免过筛选和欠筛选现象。最后,本文分别对模拟信号和异常声音信号进行分解实验,验证了本文方法的有效性。(2)提出基于CELMDAN的公共场所异常声音特征提取方法。1)公共场所异常声音信号频率成分复杂,而LMD的模态混叠问题会影响其特征提取效果。现有总体局部均值分解(Ensemble Local Mean Decomposition,ELMD)方法虽能有效缓解模态混叠,但存在重构误差大、分量掺杂噪声信息等新问题。为此,本文借鉴ELMD的基本思路,结合(1)对LMD端点效应及分解耗时问题的改进,提出CELMDAN方法。该方法的特点是引入分解嵌套思想,在加噪的第i轮环节中,在余项基础上叠加高斯噪声的第(i-1)阶PF分量,然后通过LMD分解得到该混合信号的第一阶PF分量,如此重复多次,取平均作为本方法的第i阶分量。本文从理论上证明提出方法是完备的,分解所得分量重构原信号的误差为零。2)为了验证提出CELMDAN方法的有效性,本文分别对模拟信号和公共场所典型异常声音进行特征提取及识别实验。模拟信号的实验结果表明,本文提出方法可以有效解决端点效应、模态混叠等问题,保证较理想的分解效果,并且重构误差的数量级远小于ELMD。对公共场所异常声音数据库的特征提取及识别实验结果表明,本文提出方法较MFCC及其它时频分析方法具有更好的特征描述能力。(3)根据提出方法,本文设计并实现公共场所异常声音检测与识别演示系统。包括合成测试序列、对异常声音的端点检测及识别、显示输出识别结果等多项功能。