基于音色分析与深度学习的乐器识别方法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:yuzao81927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
乐器识别作为音乐信息检索(Music Information Retrieval,MIR)的一部分,可用于对音乐的自动标注、音乐分类、音乐情感识别,乐器识别的关键是寻找乐器音色的有效表示,通过对时域频域特征、倒谱特征、稀疏特征、概率特征的分析论证表明,利用时频域特征可有效识别乐器。在此基础上,利用深度学习的逐层抽象特性对包含时频信息的谱图抽象出乐器音色的高级时频表示用于乐器识别。本文首先对传统乐器音色特征进行仿真分析,随后研究深度学习提取乐器音色的高级表示以及乐器识别的具体应用,具体的研究工作如下:1.针对目前时域频域特征、倒谱特征、稀疏特征、概率特征对同族乐器错分率高且对打击乐器识别不佳,提出一种提取时频信息且低冗余度的模型用于乐器识别,首先利用耳蜗模型对乐音进行谐波分解生成接近人耳感知且包含时频信息的听觉谱图,随后利用多尺度滤波器对听觉谱图多尺度时频调制以观测时频的变化,最后利用多线性主成分分析对调制输出在保留数据内在相关的前提下降维并使用支持向量机分类。仿真实验表明,本方法在IOWA数据库上取得92.7%的正确率,对打击乐器与同族乐器的错分率均优于上述特征。相较于主成分分析降维,多线性主成分分析能够有效提高识别准确率。2.针对传统乐器识别需要音乐的低级声频特征且识别性能依赖特征选取的问题,利用接近人耳感知且低冗余度的听觉谱图作为深度学习的输入特征,逐层抽象出音色的高级时频表示用于乐器识别。为结合级联去噪自编码器的特征表达能力以及深度置信网络的抽象特征的能力,利用上述两种基础模块搭建5层深度混合网络作为深度学习框架。在对IOWA乐器库的仿真实验表明,使用混合深度网络的识别准确率为97.2%,优于浅层网络以及单种基础模块搭建的深层神经网络。在相同的网络结构前提下,利用听觉谱图得到的识别准确率以及对打击乐器与同族乐器的错分率均优于梅尔倒谱系数以及语谱图。3.针对传统乐器识别需要人为设计特征以及全连接结构的深度学习模型训练复杂度高的问题,利用低冗余且接近人类感知的听觉谱图作为5层深度卷积网络的输入,随后利用卷积网络提取乐器音色中的高级时频表示。为有效捕获听觉谱图中的时频信息,将卷积网络第一层矩形卷积核改进为频率、时间轴上的多尺度卷积核。在对IOWA乐器库的仿真实验表明,使用改进的多尺度卷积核取得96.9%的识别准确率,优于单一卷积核。在相同的网络结构前提下,利用听觉谱图得到的识别准确率以及对打击乐器与同族乐器的错分率均优于梅尔倒谱系数以及语谱图。
其他文献
猫便秘在临床上比较多见。其中由于结肠紧张度降低,肠蠕动减弱,致使食物残渣在结肠中运行迟缓,引起的结肠性便秘是比较常见的。本文通过临床4例猫结肠性便秘病例探讨了该病的
本文主要结合高校成人高教中函授教育的实际,论述了函授生思想政治教育工作的重要性。本文认为,函授教育学员的素质参差不齐,部分学员学习散漫,学风考风不好,影响了教育质量的提高
结合青年教师导师制的实践探索,探讨了如何应用教学导师制提高青年教师的教学综合能力,对高等院校青年教师教学导师制的推广和发展提供一定的参考。
本文通过对21世纪我国成人高等教育发展趋势的分析,论述了成人高等教育教学过程的特点,以期对成人高等教育人才培养和提高教学质量有所借鉴.
本文主要结合当今社会主义市场经济体制的新要求,论述了政府形象以及在执政过程中应增强的几个方面的能力,并就如何做到为政清廉提出了建设性建议.
本文对《当代世界经济与政治》课程过去采用闭卷考试的弊端进行了深入的分析,阐述了作者与其他老师在过去四年的八次考试中进行的改革实践,详细具体地说明了改革的原则和具体的
将首先对GOMS模型进行概要介绍,接下来,在Android平台上设计和实现一个温度转换器,并使用GOMS模型对此温度转换器的界面进行定量分析,最后改进温度转换器界面,重新使用GOMS模