低复杂度声音事件检测算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:dsfgsdfwe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音事件检测(Sound Event Detection,SED)技术是利用声音信号来分析当前的声音事件种类以及感知周围环境的一类技术,它的主要任务是根据声音数据流,预测音频数据中所包含的声音事件种类以及每种声音事件发生的起止时间。SED技术在音视频会议、智能家居以及短视频等领域拥有极为广阔的实际应用前景。基于神经网络的SED模型因具有较高的检测精度而备受关注,然而现有的基于神经网络的SED算法拥有较多的参数量和乘积累加操作次数,这导致需要高功耗和大存储,使得该类方法不适用于功耗和资源严重受限的物联网设备。因此,为了解决上述的SED算法复杂度高的问题,论文提出了一种低复杂度高精度的基于卷积神经网络的SED算法(简称LCSED算法)。在该算法中,混合卷积机制和轻量级的双注意力机制被提出。其研究内容总结如下:首先,针对存在的目前SED算法复杂度高问题,论文提出了低复杂度的混合卷积机制。混合卷积机制指的是在不同的卷积阶段采用不同的卷积操作,该机制保证拥有较少的参数量和乘积累加操作次数的同时拥有较高的声音事件检测精度。接着,为了进一步提高所构建的低复杂度声音事件检测算法的检测精度,论文采用了一种轻量级的双注意力机制。该机制主要作用在通道域和时频域,让网络对与任务相关的重要的特征和区域进行重点关注,以减少无用特征图通道和时频区域对于该任务的影响。采用的双注意力机制可以在保证基本不增加模型复杂度的同时能大幅度提高对声音事件的检测精度。随后,将提出的LCSED算法融入到声音事件检测系统中,设计并开发了一个基于计算机端的声音事件检测系统图形可视化平台。该平台基于Tkinter库开发搭建,并将训练好的模型通过Tflite库进行进一步的压缩,最后将其部署上线,实时检测声音事件。最后,在常用的声音事件检测数据集(DCASE2017 Task4数据集)上评估并分析论文提出的LCSED算法。实验结果表明,本文提出的LCSED算法总参数量仅为0.29M,对于10s的音频输入该算法所需要的乘积累加操作次数为1.7G。与其它一些前沿的SED算法对比,论文提出的LCSED算法拥有较少的参数量、乘积累加操作次数以及拥有较少的训练、前向推理时间。同时,该算法在两个子任务上的F分数为59.8%,错误率为0.71,拥有较高的检测精度。
其他文献
“互联网+”背景下,新兴技术被广泛地运用到实体零售行业中,推动着零售行业不断升级,为消费者带来新的体验;除此外,互联网思维也给企业带来了新的管理理念,管理者运用互联网思维重新定义用户、规划业务、拓展市场以及业务流程再造。构建学习型组织有利于实现组织的弹性以及激发员工的自主学习与创造性,从而提升组织的适应能力。Y公司是一家实体零售连锁企业,也是本文的研究对象。随着“互联网+”的普及,消费者更青睐于在
调制识别通过接收到的无线信号判别该信号所用的调制方式,在民用和军事通信中都有较大的应用潜力。早期的调制识别研究主要是基于似然的方法,该方法在信道模型和参数精确已知的前提下为贝叶斯最优,但其计算复杂度较高且性能受限于接收信号模型等先验信息。基于特征的方法相比于基于似然的方法性能次优,但其显著减小了调制识别的计算复杂度。在基于特征的方法中,特征仰赖于专家的精心设计,在实际应用中识别性能难以得到保障。随
面对日益复杂的战场环境,传统的单机载平台独立工作的模式存在探测区域覆盖范围小,抗摧毁能力差,不具备体系对抗能力等缺点。“以平台为中心”的单机载平台工作模式,正逐渐向“以网络为中心”的多机载平台协同模式转变。结合传感器的机载协同探测系统的可控自由度和灵活性都更强,同时,随着雷达在现实战场中的广泛应用,对机载多雷达系统进行研究是十分有意义的。而多机路径规划是机载多雷达系统执行探测任务时重要的一环。本文
当前,我国经济已进入高质量发展阶段,经济总量占世界经济比重超过17%。截止到2020年9月,我国保险业总资产达到了 22.4万亿元。中国作为全球前十大保险市场中唯一的发展中国家,相较于欧美等发达国家,我国的保险深度和密度还有很大的潜力和广阔的发展空间。货物运输保险,作为世界范围内最为典型且发展时间最长的一种保险,为财险公司中的高利润险种。其中,航空运输货物保险一直保持着较低的赔付率及较高的利润率,
在现代化国防中,雷达对海探测是实现海域监控、提供电子情报的主要途径。在海杂波环境下,进行雷达目标检测研究具有重要的价值,该领域的研究面临两个主要挑战:一是目标信杂比不高,二是统计模型失配导致传统检测器性能有限。作为人工智能技术之一的深度学习,随着近年来理论研究的深化和硬件计算水平的进步,成为对海探测技术的潜在工具。本文主要聚焦于海杂波环境下雷达目标检测问题,主要基于对海探测工作场景,利用智能方法,
合成孔径雷达(Synthetic Aperture Rader,SAR)是一种常用的高分辨率微波成像系统,可以全天时地对地面进行观测成像。然而,传统SAR无法同时获得距离向宽测绘带和方位向高分辨率。为了克服这一缺点与盲区带来的影响,研究者们提出了一种基于变化脉冲重复频率的SAR系统,即Staggered SAR。此外为解决传统高过采样率Staggered SAR的数据负荷较大、实现成本较高的问题,
高阶调制格式具有更高的频谱效率,随着通信容量需求的迅速增长,越来越多地用于相干或非相干光通信系统。相比于传统OOK信号,高阶调制信号对幅度和相位噪声更加敏感,有着更高的光信噪比要求。全光再生技术可以有效减少光纤传输系统中ASE噪声积累和非线性失真劣化。近年来,相位保持幅度再生更具吸引力,特别适用于相干通信系统。论文主要针对基于非线性光纤环形镜(NOLM)的相位保持幅度再生技术开展研究,具体内容和创
信贷业务是小额贷款公司的核心业务,在开展业务中能否控制好贷款风险,关系着小额贷款公司能否可持续发展。小微企业存在经营不确定性大,而且经营信息记录不完全等原因,造成信息不对称现象,从而导致融资困难。成都冻品市场主要是以家庭为单位的个体经营者,在经营过程中,由于需要资金周转和囤货,在经营上有增加外部融资的资金需求。但是批发商在成都本地能提供抵押的资产较少,面临着融资难的情况。A小额贷款公司根据市场情况
十八届三中全会我国明确提出“积极发展混合所有制经济”,近年国企混改及股权多元化逐渐成为改革的主要方向和突破口,国内掀起了国有企业并购民营企业、民营资本入股国有企业的热潮。特别是充分竞争领域内的国有企业凭借政府支持、资本实力和政策优势,通过资本运作手段,兼并收购在目标产业链上具有显著优势的民营企业,实现快速切入战略产业或新兴领域,并占领市场,大大激发了国有经济发展动力和活力,实现国有资本产业布局优化
随着物联网时代的到来,一些领域(如导弹飞行视频监控领域)对视频低延时、低带宽传输提出越来越高的要求。市面上相关的视频实时传输系统时延在200ms-500ms不等,且存在因传输带宽大而丢帧严重的情况。不能很好满足实时性要求严格的传输领域。在这样的需求背景下,本课题便提出了对实时视频进行低延时、低带宽传输的研究。另外,在网络环境较差的低带宽情况下,需要控制较低压缩码率来适应严重受限的网络传输能力。目前