论文部分内容阅读
声学场景分类(Acoustic scene classification,ASC)使机器通过音频自动识别周围环境,得到了研究者的广泛关注。声学场景分类可应用在智能手机、可穿戴设备和智能机器人上,通过分析声音,感知环境的改变,提供针对性的服务。卷积神经网络(ConvolutionalNeuralNetwork,CNN)在声学场景领域取得了很好的效果,相较于传统手工提取特征的方法,用语谱图表示声学场景,可减少信号在时、频域的信息损失,提高识别的准确度。本文研究基于CNN的声学场景分类,主要研究内容包括:一、提出了一种适用于声学场景分类的浅层CNN结构,在保证分类正确率的前提下,降低计算复杂度。深层次网络结构意味着更多的计算时间和空间,而声学场景的频谱图(梅尔谱)纹理结构呈现规则的横、竖条纹,我们利用频谱图的特性,在保证分类正确率的前提下,减少CNN的网络结构层次,降低时间复杂度。相较于基准深层CNN网络结构,我们的浅层神经网络相对复杂度约减少至12%,在2017年声学场景和事件的检测比赛(Detection and Classification of Acoustic Scenes and Events,DCASE)数据库的测试结果显示,四折交叉验证的平均正确率为80.48%,比基准深层网络结构提高了近6%。二、提出了一种基于类间标准差的特征融合算法,通过融合类间标准差特征频谱和梅尔谱,扩充CNN的输入数据,提高了声学场景分类的正确率。梅尔谱是基于人耳对频率感知的分辨率提取的频谱图,而各频率成分的声学场景辨析度可能和感知分辨率不完全一致。本文提出了一种基于类间标准差的特征融合算法:分析训练集中不同声学场景的类内标准差;计算类间标准差;提取基于类间标准差的特征频谱;融合类间标准差频谱和梅尔谱特征。基于特征融合的CNN声学场景平均分类正确率为81.88%,进一步提升了 1.4%。三、实现了一种基于语义分层的预训练方法,通过迁移学习,提高了声学场景分类的正确率。在特征融合的基础上,结合语义分层的预训练方法,首先将15类声学场景分为3大类进行预训练,学习一个CNN1,然后CNN2的权重由预先训练好的第一级的CNN1来初始化,进行全部15类声学场景的分类任务,基于分级学习的CNN平均分类正确率为82.43%,进一步提升了 0.55%。