论文部分内容阅读
自动音乐转录(Automatic Music Transcription,AMT)算法将原始音乐翻译为符号标记,主要包含了音符的起始时间,结束时间和音调三个信息,它在音乐教学、音乐欣赏、音乐信息检索、乐理分析等方面有着广泛的应用。但是多音调自动音乐转录算法仍然是一个具有挑战性的问题。本文实现了一套基于卷积神经网络(Convolutional Neural Network,CNN)的多音调钢琴转录算法。首先对原始的钢琴音乐信号进行时频分析,读入双声道的音乐信号后进行常数Q变换(Constant Q Transform,CQT)得到双声道时频特征表示;接着进行多音调起始时间检测,通过多音调起始时间检测模型检测并行音符的起始时间,公共起始时间检测模型检测并行音符的公共起始时间,并对多音调起始时间对齐;最后进行多音调结束时间检测,通过帧级多音调检测模型检测每个音符的结束时间。本文的主要工作包括:(1)调查国内外相关研究现状,并简述自动音乐转录的核心技术;(2)设计并实现了多音调起始时间检测模块,采用两个基于CNN的模型实现了音符的起始时间和音调信息的检测,采用对齐后处理策略优化了多音调起始时间检测结果;(3)设计并实现了多音调结束时间检测模块,采用CNN的帧级多音调检测模型实现了音符的结束时间检测并且对模型进行了优化。本文使用自动音乐转录通用数据集MAPS训练和测试。模型统一使用合成部分训练,并且在真实录音部分进行测试(ENSTDkCl和ENSTDkAm)。在真实钢琴ENSTDkCl中的忽略结束时间的音符级结果上F1值为85.15%(音符起始时间允许偏差范围为±50ms),是当前效果最好的多音调钢琴转录算法;在真实钢琴ENSTDkCl和ENSTDkAm中的要求结束时间的音符级结果上F1值为55.28%(音符起始时间允许偏差范围为±50ms,音符结束时间允许偏差范围为音符长度的20%),也是当前效果最好的多音调钢琴转录算法。