基于CNN的多音调钢琴转录算法的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:a63421118
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动音乐转录(Automatic Music Transcription,AMT)算法将原始音乐翻译为符号标记,主要包含了音符的起始时间,结束时间和音调三个信息,它在音乐教学、音乐欣赏、音乐信息检索、乐理分析等方面有着广泛的应用。但是多音调自动音乐转录算法仍然是一个具有挑战性的问题。本文实现了一套基于卷积神经网络(Convolutional Neural Network,CNN)的多音调钢琴转录算法。首先对原始的钢琴音乐信号进行时频分析,读入双声道的音乐信号后进行常数Q变换(Constant Q Transform,CQT)得到双声道时频特征表示;接着进行多音调起始时间检测,通过多音调起始时间检测模型检测并行音符的起始时间,公共起始时间检测模型检测并行音符的公共起始时间,并对多音调起始时间对齐;最后进行多音调结束时间检测,通过帧级多音调检测模型检测每个音符的结束时间。本文的主要工作包括:(1)调查国内外相关研究现状,并简述自动音乐转录的核心技术;(2)设计并实现了多音调起始时间检测模块,采用两个基于CNN的模型实现了音符的起始时间和音调信息的检测,采用对齐后处理策略优化了多音调起始时间检测结果;(3)设计并实现了多音调结束时间检测模块,采用CNN的帧级多音调检测模型实现了音符的结束时间检测并且对模型进行了优化。本文使用自动音乐转录通用数据集MAPS训练和测试。模型统一使用合成部分训练,并且在真实录音部分进行测试(ENSTDkCl和ENSTDkAm)。在真实钢琴ENSTDkCl中的忽略结束时间的音符级结果上F1值为85.15%(音符起始时间允许偏差范围为±50ms),是当前效果最好的多音调钢琴转录算法;在真实钢琴ENSTDkCl和ENSTDkAm中的要求结束时间的音符级结果上F1值为55.28%(音符起始时间允许偏差范围为±50ms,音符结束时间允许偏差范围为音符长度的20%),也是当前效果最好的多音调钢琴转录算法。
其他文献
随着时代的发展,社会对人类个体社会性的要求越来越高。合作作为亲社会行为的重要组成部分,是儿童社会性体现的重要方面。而社会适应能力弱、社会交往困难恰恰是智力障碍儿童
随着市场经济的持续发展、资本市场的日趋完善,中国企业的并购活动越来越普遍。但从近期的交易数据来看,交易数量和交易金额正在逐渐趋稳。宏观层面受到经济放缓、金融行业去
《张迁碑》是备受后人推崇的经典汉碑之一,由明初出土伊始少有人关注此碑到后来的宗法《张迁》靡然成风,其间历经了几番进阶蜕变,这是个值得深入考究的问题。本文主要围绕《张迁碑》在明清时期的著录、递藏与接受情况进行展开论述,第一部分主要对《张迁碑》出土的时代背景、明代学者对《张迁碑》的相关著录、明中叶以降一些学者和书家对《张迁碑》书法的提倡、以及《张迁碑》拓本在明代的传播和收藏情况进行探究,着重分析明人对
本文首先基于动能转换视角,根据Temple和Woessmann的二元经济理论框架,将经济增长的动能归因为三种效应:要素投入、产业结构升级与技术创新;然后测算了三大经济效应在中国的现状;最后在此基础上,本文将从处于不同经济发展阶段的地区出发,选用2007年和2017年两个时间节点,运用空间SDM模型分析了在不同经济发展阶段和不同时期下,中国要素投入、产业结构升级与技术创新对经济增长作用的差异化影响以
伯川德悖论暗示着 ,生产同质品的厂商在激烈的市场竞争态势下 ,有陷入恶性价格竞争的趋势。于是同质品成为价格竞争的起因 ,文中分析了采取产品差别化策略回避价格竞争的可行