论文部分内容阅读
音频场景分类是一项通过音频分析使设备能够理解其所处环境的任务,属于计算机听觉场景领域的一个分支。目前该技术已广泛用于智能可穿戴设备、机器人传感、上下文感知服务等应用场景。近年来深度学习领域的发展更是加速了音频场景分类的研究进程。作为深度学习领域中一种重要的模型,卷积神经网络具有很强的学习能力。通过引入卷积神经网络模型作为音频场景分类器,可使分类准确率获得可观的提升,甚至能使机器超过人类水平。为了探究卷积神经网络在音频场景分类领域的适用性并寻找系统性能的提升方法,文中设计了三组系统并进行了实验及比较,主要工作如下:本文从设计基于梅尔频率倒谱系数和高斯混合模型的基线系统开始,用传统机器学习的方法构造了一个典型的基线系统作为之后系统的对照组。接着研究基于卷积神经网络的音频场景分类系统的原理,探讨将卷积神经网络应用在音频场景分类中的适用性,并设计实现了一个有两层卷积模块的基本系统。训练系统时通过调整滤波器参数以发挥其分类潜力,同时还将训练时间考虑到系统性能评估的要素中去。评估阶段分析基本系统在各类别上的分类准确率并引入混淆矩阵,发现其学习能力相对基线系统更强,但应对不同数据时泛化能力不佳,且没有有效利用到音频文件中的空间信息。根据基本系统体现出的问题,本文又设计了一个改进系统,从音频处理和网络结构两方面对基本系统进行改进。音频处理方面使用了双耳表示法及谐波-冲击源分离法对原始音频进行处理并提取相应特征,使系统得以利用场景的空间特征,进而使分类准确率得到了可观的提升。网络结构方面尝试借鉴图像识别领域中的VGGNet结构,在增加网络深度的同时提升系统灵活性,最终在不同的数据上取得了更好的泛化效果。此外改进系统还使用了集成学习中的Stacking方法将多个基于不同特征的独立子模型融合,融合后的系统相比其中的子模型分类性能又有了进一步的提升。通过实验及比较,最终得出的结论是:在音频场景分类领域中,卷积神经网络相比于传统机器学习方法学习能力更强。在设计卷积神经网络时应注意网络的灵活性,将提升系统性能的重点放在网络结构优化而不是参数调整上,避免因参数过多而造成系统的泛化能力不佳。此外,通过引入集成学习的方法将多组模型进行融合通常可以显著的提升性能,但集成时应注意模型间的独立性。最后,在音频特征提取阶段如果能利用到立体声信息,可以提升系统对空间的感知能力,进而提升分类准确率。