论文部分内容阅读
乐器识别作为音乐信息检索(Music Information Retrieval,MIR)的一部分,可用于对音乐的自动标注、音乐分类、音乐情感识别,乐器识别的关键是寻找乐器音色的有效表示,通过对时域频域特征、倒谱特征、稀疏特征、概率特征的分析论证表明,利用时频域特征可有效识别乐器。在此基础上,利用深度学习的逐层抽象特性对包含时频信息的谱图抽象出乐器音色的高级时频表示用于乐器识别。本文首先对传统乐器音色特征进行仿真分析,随后研究深度学习提取乐器音色的高级表示以及乐器识别的具体应用,具体的研究工作如下:1.针对目前时域频域特征、倒谱特征、稀疏特征、概率特征对同族乐器错分率高且对打击乐器识别不佳,提出一种提取时频信息且低冗余度的模型用于乐器识别,首先利用耳蜗模型对乐音进行谐波分解生成接近人耳感知且包含时频信息的听觉谱图,随后利用多尺度滤波器对听觉谱图多尺度时频调制以观测时频的变化,最后利用多线性主成分分析对调制输出在保留数据内在相关的前提下降维并使用支持向量机分类。仿真实验表明,本方法在IOWA数据库上取得92.7%的正确率,对打击乐器与同族乐器的错分率均优于上述特征。相较于主成分分析降维,多线性主成分分析能够有效提高识别准确率。2.针对传统乐器识别需要音乐的低级声频特征且识别性能依赖特征选取的问题,利用接近人耳感知且低冗余度的听觉谱图作为深度学习的输入特征,逐层抽象出音色的高级时频表示用于乐器识别。为结合级联去噪自编码器的特征表达能力以及深度置信网络的抽象特征的能力,利用上述两种基础模块搭建5层深度混合网络作为深度学习框架。在对IOWA乐器库的仿真实验表明,使用混合深度网络的识别准确率为97.2%,优于浅层网络以及单种基础模块搭建的深层神经网络。在相同的网络结构前提下,利用听觉谱图得到的识别准确率以及对打击乐器与同族乐器的错分率均优于梅尔倒谱系数以及语谱图。3.针对传统乐器识别需要人为设计特征以及全连接结构的深度学习模型训练复杂度高的问题,利用低冗余且接近人类感知的听觉谱图作为5层深度卷积网络的输入,随后利用卷积网络提取乐器音色中的高级时频表示。为有效捕获听觉谱图中的时频信息,将卷积网络第一层矩形卷积核改进为频率、时间轴上的多尺度卷积核。在对IOWA乐器库的仿真实验表明,使用改进的多尺度卷积核取得96.9%的识别准确率,优于单一卷积核。在相同的网络结构前提下,利用听觉谱图得到的识别准确率以及对打击乐器与同族乐器的错分率均优于梅尔倒谱系数以及语谱图。