论文部分内容阅读
声信号是重要的信息载体,通过声信号来感知环境信息是机器听觉领域中重要的研究内容之一。由于声信号识别技术具有设备体积小、硬件成本低、工作过程中不受地形、角度和光线等条件限制优点。因此,声信号识别技术在安全监管、医疗监护、生态系统调查以及反恐防暴等领域均具有广阔的发展前景。本文主要从声信号的时频纹理表征以及识别技术两方面展开研究,论文的主要内容如下:本文研究了音频识别技术原理以及国内外研究现状,并根据本文研究对象的特点确立了声信号识别技术的总体方案。首先,通过梅尔滤波器组以及Gammatone滤波器组等,仿人耳听觉特性的滤波器组获取声信号的时频纹理特征。针对单一时频纹理特征无法完全表征声信号在时频域上演变过程的问题,进一步提取了声信号时频纹理特征在时域以及频域上的一阶差分特征,获取了声信号能量在时频域上的变化信息。并将三种特征结合起来形成了一种声信号的多维时频纹理特征,这种多维特征能够更加有效地为识别模型提供不同类别声信号间时频特点的差异。其次,设计了用于提取声信号高层次特征的卷积神经网络模型,针对时频纹理特征维度信息不同的特点,采用分离卷积的方式提取时频纹理特征不同维度的高层次特征,构建了一种应用于本文研究对象的高层次特征提取模型,并设计了配套的分类模型。与此同时,采用DS证据理论融合了两种不同时频纹理特征的识别信息,进一步提升了声信号识别模型的性能。本文建立的声信号识别模型在ESC-10和ESC-50数据集中分别达到了97.2%与87.1%的识别率。最后,在本文提出的声信号识别模型基础上,建立了现实环境下的声信号实时识别系统。该系统主要包含硬件系统与软件系统两部分,其中软件系统可分为仿真模式、学习模式以及在线模式三个操作界面。根据现实环境中声信号识别的难点,引入主动标定技术,有效地避免了传统降噪算法所带来的一些问题。本文构建的声信号识别系统实现了在现实环境下对于脚步声、枪声、直升机声以及人声的实时识别。在信噪比为0dB以上时,识别率可达91.8%,平均识别时间为2.4秒。