基于残差网络及其变体的声学场景分类

来源 :安徽大学 | 被引量 : 0次 | 上传用户:chenjianhao2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声学场景分类可以将在公共区域中录制的录音识别为若干预定义声学场景类别之一,比如确定录音音频发生在“公园”,“步行街”或“地铁站”等场景中的具体发生场景。声学场景分类这项技术可以广泛应用于移动设备以及智能机器人上。随着近年来深度学习技术的发展,声学场景分类任务越来越多的运用深度学习技术。对于卷积神经网络,研究人员已进行了多次尝试,以构建越来越深的卷积神经网络,例如分别具有22层卷积层的GoogleLeNet和152层卷积层的残差网络。卷积神经网络通过增加深度,使得网络利用增加的非线性得到与目标函数近似的结构,从而得到更好的特征。本文主要是基于残差网络及其变种网络进行声学场景分类任务的。本文的主要内容有:(1)提出基于微批量训练的残差注意力网络声学场景分类算法。将在ImageNet分类中表现良好的残差注意力网络应用于基于微批量训练的不匹配记录设备的声学场景分类任务。通过修改残差注意力网络的输入以便它们在音频的log-mel频谱图域上运行,为了进一步提高性能,采用可切换归一化和权重标准化解决了微批量训练的难题,而无需使用强大的硬件和内存资源。分别选择4层和8层卷积神经网络作为基线系统,在TUT Urban Acoustic Scenes 2018 Mobile数据集上,我们的最佳系统获得了58.6%的分类精度,相比4层卷积神经网络实现了1.1%的分类准确度的相对提升,相比8层卷积神经网络实现了1.4%的分类准确度的相对提升。(2)提出基于迁移学习的残差网络声学场景分类算法。迁移学习微调基于残差网络的预训练模型使得它适用于声学场景分类任务,残差网络的预训练模型是基于ImageNet图片数据集。此外,focal loss用于改善整体性能。为了减少过度拟合的机会,使用了mixup数据增强技术。选择未使用迁移学习的挤压激励残差网络作为基线系统。在TUT Urban Acoustic Scenes 2018数据集上,我们的最佳系统获得了74.7%的分类精度,比基线系统相对提高了2.2%。
其他文献
Schr(?)dinger方程是量子力学的基本方程.近百年来关于它的研究一直是学者们关注的焦点之一.Schr(?)dinger-Poission模型是Hartree-Fock方程的单粒子近似模型,本文是在幂指数次临界情况下,研究方程的驻波解.并建立了其轨道稳定的判别准则.全文分为三章,第一章是引言,阐述了Schr(?)dinger-Poission方程的物理背景,介绍了相关研究的结果,及本文的主要
纳豆由豆类作物通过纳豆枯草芽孢杆菌(Bacillus Natto Sawmura)发酵制成,含有大豆异黄酮、亚油酸、大豆卵磷脂等多种功能性物质并且含有其特有的纳豆激酶(Nattokinase)。本文
抗污染性差通常是限制高分子材料应用的瓶颈之一。近年来,两性离子化合物(如磺基甜菜碱甲基丙烯酸酯,SBMA)以其卓越的抗吸附性能受到广泛关注,已被用于高分子膜和水凝胶的抗
有机电致发光材料在显示、照明和信息安全等领域展现出巨大的应用潜力。基于环金属铱(III)配合物的有机磷光材料可以同时利用三线态和单线态激子发光,从而实现100%的理论内量子
通过对中国阿尔泰造山带南缘富蕴县乌恰沟地区所出露的含石榴石副片麻岩进行了详细的野外地质观察及岩相学分析,确定了至少三期构造变形-变质事件:1)第一期变形变质作用(D_1)可划分为早一期的埋深变质作用与后期的伸展作用,埋深作用初期发育M_1期变质矿物组合黑云母+斜长石+石英,该阶段P-T条件为590°C/4.6 kbar,后达到P-T条件为650°C/5.5 kbar的变质峰期,发育M_2期变质矿物
氮化硼纳米片是一种类似石墨烯结构的新型二维纳米材料,因其优异的性能和潜力,受到了广泛的关注。众所周知,纳米材料的力学性能研究是其他应用的基础,而氮化硼纳米片的基本力
mcr-1作为首个质粒介导的黏菌素耐药基因,引起全世界高度关注。耐药基因可通过水平转移和垂直传播从动物源耐药菌进入其周围环境,mcr-1基因在国内猪场检出率高,但其对猪场环
Davey-Stewartson系统是描述水波在重力和表面张力的作用下,沿一个主方向传播的数学模型.我们主要研究Davey-Stewartson系统驻波的不稳定性,证明在一定条件下驻波的强不稳定
航拍目标的检测与跟踪技术是无人机对地面目标实时监测的基础操作,也是无人机实现智能化应用的重要技术之一。在实际情形中,地面目标存在视场广、尺寸小、背景繁杂等诸多情况,通用算法对特殊场景下的目标检测与跟踪能力不够理想。因此本文以航拍视角下的目标检测与跟踪为研究方向,在计算机视觉技术与深度学习理论研究的基础上,探索更高效的航拍目标检测与跟踪算法,用以提升复杂环境下航拍小目标的检测能力,增强航拍运动目标跟
克拉美丽气田地层属非均质程度高、孔隙类型较差的低孔、特低渗储层。目前已进入稳产末期,老井产量递减加速,新井压后产量低,边底水活跃,投资收益逆差大,如何经济高效的开发