基于深度学习的音频场景分类研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:pingguotailang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频场景分类(Acoustic Scene Classification,ASC)是将音频与其录制场景对应起来的一种方法,是计算机听觉场景分析的重要课题之一。音频场景分类,主要是通过提取音频信号的特征,并将经过分析的特征分类到与之对应的场景。目前的音频场景分类系统主要由音频特征提取和分类器两部分组成,提取的音频特征主要包括梅尔频率倒谱系数和对数梅尔谱图,分类器主要包含循环神经网络,卷积神经网络以及深度神经网络。研究人员通过改进单模型、多模型集成以及迁移学习来提高模型性能。在视频信息质量较差的情况下,通过对音频的分析来辅助视频分类系统的工作,对于自动驾驶和智慧城市等发展有一定的贡献。为了解决音频场景分类准确率低的问题,本文主要是单模型进行改进,研究工作从三个方面进行展开,分别是:以对数梅尔谱图为基础,通过改变滤波器的数量、使用不同通道的音频以及谐波冲击源分离(Harmonic Percussive Source Separation,HPSS)的增强方法来提取不同信息的音频特征;在卷积神经网络作为分类器的基础上,通过添加压缩激励(Squeeze Excitation,SE)模块将能够关注到卷积模块输出特征通道间的信息,并且利用压缩激励来提取不同频率间的信息;以经典的卷积神经网络结构VGG(Visual Geometry Group)和Inception中的基本结构单元为基础,将1个Inception和2个VGG基本结构单元组成混合网络作为分类器。实验表明,在2019声学挑战赛的场景分类数据集上,适当的增加滤波器的数量,使用谐波冲击源分类方法提取的音频特征将分类准确率最高提升了5.4%;基于通道的压缩激励应用能够改善模型分类性能,基于频率的压缩激励模块在部分场景的分类效果有所提升;基于混合网络的模型的分类效果在部分场景分类准确率表现较好。
其他文献
近年来,高阶调制、波分复用等新兴光通信技术广泛应用于光纤通信系统中,但导致光网络结构复杂、非线性效应等问题日愈突出,严重影响光网络性能参数计算精度,基于深度学习的光网络性能参数计算,以其在处理非线性问题上先天优势,受到越来越多关注。本文围绕光性能监测技术,建立基于深度学习的光性能参数智能预测模型,计算光信噪比,色散等多个光性能参数,并合理分配智慧预测模型到光网络中云平台和设备侧,对保障光网络传输质
在当今物流行业发展迅猛的年代,物流配送路径问题已跃然成为了难点问题。配送车辆的有限性以及客户接受服务时间的差异性,限制着物流配送的服务效率和配送质量。因此优化好物流配送路径,可以直接提升配送人员的服务质量,减少物流配送成本,进而提高物流企业的经济收益。为此,本文在研究了容量约束的软时间窗物流配送路径问题的基础上,建立数学模型,并对蚁群算法进行优化,然后运用优化后的蚁群算法求解带软时间窗的物流配送问
松材线虫是一种毁灭性的森林病虫,松材线虫早期发现是对抗松材线虫病的最有效手段,因此,松材线虫病监测技术是松材线虫病防控成功与否的关键。目前,林业部门在很多松林区域仍然依赖人工普查的方式防控疫情,普查效率不高,结合无人机航拍技术、图像处理和机器学习技术的松材线虫病疫情防治手段是重要研究对象。目标计数算法是指计算机通过对静态图像或动态视频处理获取图像中目标的数量的过程。本文提出了一种基于神经网络的松材
深度学习算法在计算机视觉领域取得了巨大成功,但有研究指出深度学习模型很容易受到对抗样本的攻击从而做出错误的决策。这对深度学习的进一步发展提出了挑战,也促使研究者更多关注对抗样本攻击与深度学习安全之间的关系。目前主流的攻击算法有多种形式,可以根据不同情况下的深度学习模型进行针对攻击。主流的研究方向包括提高攻击成功率,降低对抗样本生成的资源开销以及贴近真实攻击场景的黑盒攻击。本文围绕对抗样本展开研究,
长距离的温度监测在工程实际场景中有着广泛的用途,在输气管线泄漏监测、高压输电线路以及电缆廊道等大范围、长距离场景中都需要对温度进行准确、快速且高空间密度的测量监控。近年来,在光纤传感领域,基于拉曼散射的分布式温度测量系统、基于布里渊散射的光时域分析仪以及基于光纤光栅的温度测量系统已经大量投入了实际使用,这些产品在传感距离上实现突破时往往很难兼顾测量精度和响应时间等其他指标,或者精度高响应快但是传感
随着我国经济高速发展,园区广泛建设,城市化、信息化、应用化逐渐融为一体,水平不断提高,“智慧城市”“智慧园区”理念深入人心。当前智慧园区监控水平还有待提高,存在如操作体验不强、监控系统单一、管理困难、维护成本高等问题,应把信息三维可视化、监控安防统一化、管理维护人性化有机地结合起来。本文基于三维虚拟地球引擎Cesium对园区内强弱电信息进行二三维可视化监控系统的设计与开发,有效提升了监控管理和信息
相位敏感型光时域反射计(Phase-sensitive Optical Time Domain Reflectometer,Φ-OTDR)是一种新型全分布式光纤传感技术,能够承受较高压力,并且检测范围很广,而由于光纤的特殊性,它还能够耐腐蚀,灵敏度也特别高,自然就成为了通信等各个领域研究发展的一种重要技术。相比于其他现有的光纤传感技术,Φ-OTDR的主要优势在于能够检测更加微弱的外界振动信息,更为
在享受时代和网络不断向前发展所带来的服务和技术的同时,也面临着网络发展时代变化带来的种种问题和挑战。僵尸网络就是其中较为突出的一种,可实施盗窃,入侵,远程操作肉鸡等多种攻击行为。能够通过网络流量,而不是后知后觉地监视受感染主机的方式,较早较快地通过网络流量来发现和识别僵尸网络是未来的一种必然选择。本文的主要工作如下:1.使用长短期记忆网络(Long Short-Term Memory,LSTM)代
当今信息时代,面对海量的图像、文本、音视频等多种形式的信息,在进行处理时如何快速准确地获取到各类工作所需要的信息,从而提升工作效率,是当前信息领域的研究大方向。其中对文本数据的研究、即自然语言处理中,信息抽取以其对文本最基本要素信息等的处理,成为重点研究任务。信息抽取有三个子任务,分别为实体抽取、关系抽取和事件抽取。其中实体抽取和关系抽取是很多复杂自然语言处理任务的起始任务,其结果对下游任务影响很
近年来,城市中的安全隐患日益增多,各类灾害事故呈现出风险高,危害大的特点,安全隐患日益增多的主要原因是社会经济持续快速发展,城市规模不断扩大导致的人口大量聚集,因此社会公共安全需求日益增加。随着城市化进程的持续进行,城市高层、地下、商业综合体、地铁、隧道等建筑发展迅猛,导致公安消防局现役防灭火力量严重不足,消防官兵长期疲劳作战,火灾防控压力巨大。国务院《促进大数据发展行动刚要》(2015)指出要推