论文部分内容阅读
自动音乐识谱(AMT)即自动将音乐信号转换成某种乐谱形式的过程,它被认为是音乐信号处理中关键性的问题,但同时也是一个复杂而且具有挑战性的问题,目前对于多音音乐的自动音乐识谱还没有能达到人工识谱效果的系统。自动音乐识谱技术在自动音乐伴奏、高级音乐编辑技术、音乐检索、音乐教学等领域有着广泛的应用。本文将自动音乐识谱过程分为两个主要的子任务:多基频估计与多基频流化,并分别对它们进行研究与改进,下面是本文主要的研究工作与创新点:(1)基于统计模型的多基频估计本文采用最大似然概率的方法来进行多基频估计,以频谱上的峰值点作为观察值,而将基频作为需要估计的参数。在训练模型时,为了充分利用频谱上所有区域的信息,本文对参数模型进行修改,加入了峰值点以外区域的信息,从而与峰值点区域信息形成互补,前者被用来确定基频应该出现的位置,而后者被用来确定基频不应该出现的位置。在多基频估计时,针对似然概率估计的基频个数估计问题,本文采用假设谐频序列(HPS)方法,计算谐频的幅值与频谱平滑度,考虑基频组合中谐频间的相互干扰,从而根据频谱能量与平滑性选择最优的基频组合。最后采用相邻帧的关系来进行后处理。实验结果表明相关的改进和后处理可以取得更好的多基频估计效果。(2)基于音色特征的多基频流化本文采用基于音色特征的方法来进行多基频流化,将其建模为一个受约束的聚类问题。并且以梅尔倒谱系数特征(MFCC)、谐频结构特征(HS)、普通倒谱特征(OC)、离散倒谱特征(DC)作为音色特征进行研究。为了保证相同乐器源所关联的音色特征具有相似性,而不同的乐器源所关联的音色特征具有更好的区分度,本文对DC特征进行改进,并提出一个新的特征,离散均匀倒谱特征(UDC),实验结果发现UDC特征可以取得更好的效果。同时在聚类算法的初始化时,不同于传统的采用随机初始化来聚类,本文采用按基频大小顺序来进行初始化聚类。通过实验发现,在结果相当的情况下,可以大幅度减少算法的迭代次数,从而提高算法的效率。