论文部分内容阅读
为了适应音乐信息检索领域和现实世界对音乐信号中乐器信息的需求,深度学习开始被应用于乐器识别任务。本文以复调音乐中的主乐器识别为研究课题,基于乐器识别理论基础,重点研究卷积神经网络、多任务学习网络结构、复合网络以及损失函数在乐器识别中的作用和效果。论文主要内容分为五部分。作为乐器识别任务的基线,本文详细介绍并分析了用于乐器识别的ConvNet网络,包括实验使用的数据集、网络结构、训练及测试配置和评估参数,使用两种不同的提取特征作为输入数据对ConvNet展开实验并将实验结果作为后续研究的基线。针对起振类型对精度和召回率产生显著影响的问题,本文对ConvNet进行改进,向ConvNet网络引入辅助分类,通过同时执行主分类和辅助分类实现多任务学习。文章通过分析音乐信号设计了基于误判率分析、基于乐器家族和基于起振类型的三种分组策略,基于分组策略获得乐器的组别标签并用于辅助分类。多任务的学习结构可以获得更泛化的表示,并且过拟合和陷入局部最小值的风险较小。对于训练网络使用的损失函数,文章向二元交叉熵中引入中心损失以减小类内间距。为了验证所提出的改进方法的有效性,本文设计了一系列实验对提出的多任务学习网络进行验证和性能分析。通过选择最优超参数,包括辅助分类与主分类的损失比,中心损失与二元交叉熵的比值,以及mini-batch的大小,最终以最佳比例引入辅助分类和中心损失,在引入批量归一化层之后的完整多任务学习网络上得到微观F1测度0.685和宏观F1测度0.597,相比基线ConvNet网络提高了10.7%和16.4%。同时,为了了解所提出模型的内在处理机制,文章使用t-SNE算法对数据进行降维并可视化,结果表明文章提出的网络结构相对于基线ConvNet网络结构在聚合效果上有明显提升。另外,文章研究了基于ConvNet的复合网络结构,通过每次只关注两种乐器提升模型的容错能力。实验发现随着乐器类别数量的增加,复合网络的乐器识别性能逐渐显现出优势。在特征方面,本文对谐波源和冲击源相关特征进行了研究。通过直观听觉感受谐波源和冲击源音频以及观察时频谱图,分析了谐波源和冲击源在乐器识别任务中可能承担的角色以及未能通过初步处理获得更好识别效果的原因。