基于深度学习的主乐器识别方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hally123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了适应音乐信息检索领域和现实世界对音乐信号中乐器信息的需求,深度学习开始被应用于乐器识别任务。本文以复调音乐中的主乐器识别为研究课题,基于乐器识别理论基础,重点研究卷积神经网络、多任务学习网络结构、复合网络以及损失函数在乐器识别中的作用和效果。论文主要内容分为五部分。作为乐器识别任务的基线,本文详细介绍并分析了用于乐器识别的ConvNet网络,包括实验使用的数据集、网络结构、训练及测试配置和评估参数,使用两种不同的提取特征作为输入数据对ConvNet展开实验并将实验结果作为后续研究的基线。针对起振类型对精度和召回率产生显著影响的问题,本文对ConvNet进行改进,向ConvNet网络引入辅助分类,通过同时执行主分类和辅助分类实现多任务学习。文章通过分析音乐信号设计了基于误判率分析、基于乐器家族和基于起振类型的三种分组策略,基于分组策略获得乐器的组别标签并用于辅助分类。多任务的学习结构可以获得更泛化的表示,并且过拟合和陷入局部最小值的风险较小。对于训练网络使用的损失函数,文章向二元交叉熵中引入中心损失以减小类内间距。为了验证所提出的改进方法的有效性,本文设计了一系列实验对提出的多任务学习网络进行验证和性能分析。通过选择最优超参数,包括辅助分类与主分类的损失比,中心损失与二元交叉熵的比值,以及mini-batch的大小,最终以最佳比例引入辅助分类和中心损失,在引入批量归一化层之后的完整多任务学习网络上得到微观F1测度0.685和宏观F1测度0.597,相比基线ConvNet网络提高了10.7%和16.4%。同时,为了了解所提出模型的内在处理机制,文章使用t-SNE算法对数据进行降维并可视化,结果表明文章提出的网络结构相对于基线ConvNet网络结构在聚合效果上有明显提升。另外,文章研究了基于ConvNet的复合网络结构,通过每次只关注两种乐器提升模型的容错能力。实验发现随着乐器类别数量的增加,复合网络的乐器识别性能逐渐显现出优势。在特征方面,本文对谐波源和冲击源相关特征进行了研究。通过直观听觉感受谐波源和冲击源音频以及观察时频谱图,分析了谐波源和冲击源在乐器识别任务中可能承担的角色以及未能通过初步处理获得更好识别效果的原因。
其他文献
中国移动致力于为雄安新区打造新一代通信基础设施,5G网络建设已初具规模,中国移动还面向智慧交通、智慧安防、智慧商超等垂直行业开展了一系列5G业务示范与应用创新,为雄安
2017/2018年度冬小麦、油菜生育期内,产区大部时段光热适宜、墒情良好,农业干旱和病虫害发生范围小、影响偏轻。但秋播期连阴雨导致西北地区东南部、黄淮西部、江淮、江汉及
通过客观效果、主观福祉、伦理价值三个指标来评价少数民族高考加分政策的实施效果,结果发现,少数民族学生和汉族学生都对该政策的知晓度较高,对政策存在的必要性和合理性认
大坪矿区离子吸附型稀土矿成矿母岩主要为金鸡岭岩体中—粗粒黑云母二长花岗岩,通过对含矿母岩岩石学、地球化学特征研究表明,金鸡岭岩体黑云母二长花岗岩为高钾质、亚碱性、
在新的发展形势下,我国经济从高速增长转向了中高速增长,也从要素驱动、投资驱动转向创新驱动提出了新要求。另一方面美国“再工业化”战略的实施使一些高端制造业在一定程度
作为移动学习的重要构成要素,移动学习教学资源的质量直接影响着移动学习的发展。文章在分析移动学习资源建设现状的基础上,提出了移动环境下教学资源建设原则及建设规范流程
2012年修订的民事诉讼法中首次规定了民事诉讼应诉管辖制度,这项制度在尊重当事人意思自治的前提下,极大地赋予了当事人对诉讼权益的处分权,凸显了当事人在诉讼程序中的主体