【摘 要】
:
声音中包括大量的环境信息,对录制音频中的环境信息进行识别可以判断出录制音频所处的声音场景。声音场景分类就是对录制音频所处的声音场景进行判别。近年来,声音场景分类逐
论文部分内容阅读
声音中包括大量的环境信息,对录制音频中的环境信息进行识别可以判断出录制音频所处的声音场景。声音场景分类就是对录制音频所处的声音场景进行判别。近年来,声音场景分类逐渐成为一个新的研究热点。伴随着该研究的推广并应用在可穿戴设备中就可能面临着录音设备不匹配的问题。由此而产生了面向不同录音设备的声音场景分类方法研究。本文所选用的数据集为DCASE(Detection and Classification of Acoustic Scenes and Events)2019任务1B的数据集,DCASE是由IEEE AASP(Audio and Acoustic Signal Processing)授权的全球性比赛,提供的数据集被国内外广大研究人员所使用。本文首先按照其所提供的基线系统中所使用的特征提取方法和卷积神经网络,最后得到设备平均准确率为41.4%。接着,以对数梅尔谱进行特征提取,在特征提取的基础之上分别使用HPSS(Harmonic Percussive Source Separation)、NNF(Nearest Neighbor Filter)、Vocal separation频谱分解的方法和HRTF(Head-related Transfer Function)方法进行音频预处理。再使用VGGNet网络结构对所得到的不同的特征进行训练,并对训练得到的模型进行集成学习。最后,使用频谱分解方法得到的设备平均准确率达到64.0%,使用HRTF方法得到的设备平均准确率提高至65.1%。在音频预处理的基础之上,对数据集中所有的音频片段提取特征的同时,额外使用频谱校正对音频片段的频谱进行校正,使得不同设备之间的差异缩小,进而使得所提供的音频片段之间更相似。对所提取的特征使用VGGNet网络结构进行训练,得到的单个模型结果相比于不使用频谱校正的结果,使用频谱分解方法进行音频预处理得到的设备平均准确率最高提升达到8.8%,使用HRTF方法进行音频预处理得到的设备平均准确率最高提升达到5.9%。在音频预处理和频谱校正的基础之上,对VGGNet网络结构进行改进,得到ResNet网络结构,对所提取的特征进行Mixup数据增强,使用焦点损失函数进行训练,得到的单个模型结果相比于使用VGGNet网络结构训练得到的结果,除了vocal separation音频预处理算法,设备平均准确率均得到了大幅提升,最高提升达到10.3%。最后,使用集成学习,并在集成学习上使用类加权,所得到的设备平均准确率的结果达到最高为73.9%,相比基线系统结果,提升幅度高达32.5%。
其他文献
不锈钢-碳钢层合板是一种资源节约型、高性价比的新型材料,综合了不锈钢与碳钢的优异性能,做到了低成本应用。激光弯曲成形技术是无模具柔性成形技术之一,利用激光能量诱导板
高温超导体具有较高的临界温度,较大的临界电流密度并且可以捕获较大的磁场。这些优秀的材料特性使得高温超导体被广泛应用于制备超导磁体和超导电缆。高温超导材料的大规模
随着互联网技术的发展,互联网服务提供商所要处理的数据量已成突变性的增长。特别地,在电子商务领域,随着网购的人数逐年增多,平台每天记录到的数据集量也越来越庞大。因此,如何更加有效的利用收到的信息,以及如何确保收集来的数据的正确性成为平台迫切解决的问题,此外,随着有关用户购物行为的数据挖掘业务的不断增长,围绕着电商平台数据监控,数据统计可视化的需求逐渐显现。基于用户行为的监控预警系统的出现,将使电商平
Z油田开采年限久,目前已经进入高含水、高采出程度、高递减阶段,流体关系复杂。油田新井含水率高,并且该区测井系列混杂,测井资料不配套,也未展开对水淹层测井解释的分析研究
我国目前已成为仅次于美国、日本的全球第三大债券市场,强烈的债务融资需求大力促进了我国债券市场的发展,与此同时债券市场的发展也促进了我国信用评级业的发展,并且评级机构的债券信用评级对不仅对进一步提高市场定价效率,降低定价成本,缓解金融市场中的信息不对称现象具有重要作用,而且也有助于政府的监管部门降低债券市场的准入门槛,制定行之有效的监管政策,促进金融市场的良性发展,同时也有利于树立了投资者信心,激发
氢气(H2)具有环境友好和高能量密度的特点,被公认为最有希望的替代能源之一。随着分布式氢燃料电池的发展,对甲醇(CH3OH)的水相重整制氢效率要求逐渐提高。由于CH3OH理论氢含
员工建言行为一直以来都被视为促进组织效能与推动组织革新的重要驱动力。建言以其重要价值,使得学者们在过去二十年里对如何促进员工进言献策进行了大量探讨。然而,建言是否能发挥其积极效果,首先还需取决于管理者是否愿意采纳下属的建议。因此,仅仅呼吁和鼓励员工建言显然远远不足以发挥建言的作用,探索管理者采纳或抗拒下属建言的原因同样重要。近年来,管理者建言采纳得到了广泛关注,但学界对此主题的研究仍处于起步阶段,
仿避役弹射机器人是模仿变色蜥蜴舌头在捕食时高速弹射运动的仿生机器人,作为全新的研究领域,其技术具有广泛的应用前景,主要可应用于物流分拣、环保、农业及军事无人机等领域。本文系统地设计了用于提高传统结构化机器人操作速度的弹性嵌套式仿生弹射机器人系统。从生物力学和弹塑性力学的角度深入了解了避役弹舌的生理结构及其高速弹射的运动机理后,建立了一种“弹射式”的仿避役弹射机构的数理模型,并根据该仿生模型进行仿真
2016年,中国国有企业净利润是2.3万亿元人民币,与之对应的金融业净利润额达2.1万亿元人民币,金融业利润与全国国企利润相当。2017年,我国金融行业增加值占国内生产总值的比重高于欧美发达国家水平。自2018年年初以来,相关部门已经出台一系列“强监管”措施,发展金融市场、加强监管、强化立法和公司治理等在政策组合中的权重越来越高。在过去的30多年,经济的金融化现象成为一个越来越普遍的课题。本文从现
在过去十年左右的时间里,人们因二维(2D)范德华(vdW)材料在器件、传感、催化、医药和能源等诸多领域中的应用前景而对其兴趣激增,但磁性vdW体系似乎一直缺席。由于自旋电子器