论文部分内容阅读
纸质乐谱向数字化乐谱的转换,是人类音乐活动与计算机音乐处理之间进行信息交流的必经之路。光学乐谱识别是将纸质乐谱扫描输入计算机后,对乐谱图像加以处理、识别、分析,最终获得乐谱的计算机数字表达的过程。光学乐谱识别技术突破了纯手工的乐谱数字化瓶颈,为乐谱数字化提供了一条智能、高效、快捷的新途径,具有重要的理论研究意义和应用价值。本文以印刷体多声部五线谱为研究对象,从谱线定位与删除、音符识别、乐谱专用符号识别、乐谱重建与语义解释四个方面,对乐谱识别的关键技术进行了系统深入地研究,在多个环节上提出了行之有效的新思路和新方法。谱线定位与删除是乐谱识别的首要环节。在谱线定位方面,本文提出了基于交叉相关性的乐谱图像变形校正与谱线定位算法,其本质是利用“化整为零、相关计算”的思想,对基于水平投影的谱线定位方法的一种改进。该算法在保持了投影方法计算简单、抗噪声能力强的原有优势的同时,弥补了其对变形敏感的不足,有效解决了现有统计和结构两类谱线定位方法存在的抗变形和抗噪声之间的矛盾。在谱线删除方面,本文针对谱线删除过程中存在的“过删除”问题,提出了基于图段拓扑关系的谱线删除算法。与现有谱线删除方法相比,该算法在提高删除单元表达层次的同时,强调对删除单元周边环境特征的分析和判断,能够更全面、清晰地观察到谱线与非谱线像素的区别,从而明显减少谱线“过删除”现象的发生,保证了乐谱图形符号在谱线删除之后的完整性。音符识别是乐谱识别的核心与关键。本文根据音符的多样性和多态性特点,确定了基于结构的音符识别方案,将其识别过程划分为基元抽取和结构分析两个阶段。在音符基元抽取方面,提出了基于垂直游程编码的粗提取、基于水平游程编码的精检测的符干抽取方法,克服了现有方法对复杂音符适应性差、抽取结果不完整等缺陷;设计了一种先分割、后特征检测的实心符头抽取方法,该方法利用音符先验知识和已有的谱线、符干识别结果对符头进行切割,解决了粘连符头的切分难题;提出一种基于块状体分割和特征检测的尾桥抽取方法,避开了传统的直线抽取方法所无法处理的尾桥粘连问题。在音符结构分析方面,提出了一种基于作用场的音符结构分析方法。该方法将物理学中的作用场概念引入到音符基元的关系表达,实现了知识性、鲁棒性和精确性三者的统一。在此基础上,定义了六个音符子结构,建立了关键结构优先定位的音符结构分析模型,实现了音符基元数据向音符对象的重建。该模型体现了人工识谱时突出重点特征、从整体到细节的思维习惯,不仅减少了分析的复杂度,而且具有较强的基元冗余排错能力。对于音符除外的其它乐谱符号即乐谱专用符号。提出了一种基于几何、中心矩和穿刺三类特征的神经网络识别方法。上述三类特征能够很好地兼顾统计特征的抗噪性和结构特征对细微差别的分类能力,体现了各类乐谱专用符号的实际特点,并采用具有强大非线性分类能力的BP神经网络作为符号分类器,取得了良好的识别效果。最后,本文通过建立“乐谱结构树”,实现了由散乱图形符号数据到乐谱数据的有机组织和重建。讨论了音乐事件序列的生成方法,实现了乐谱语义解释及其语义内容的标准MIDI格式文件输出。作为本文的主要研究成果之一,开发研制了一个完整的乐谱智能识别原型系统IOMRS。应用本文提出的图形与语义相结合的识别评价体系,对IOMRS系统和商品化乐谱识别系统进行了性能评测和比较。测试结果表明,IOMRS的整体识别性能已达到目前优秀商品化乐谱识别系统的水平,并且在音符识别、不同数据环境下的适应性和执行速度三方面表现出明显的优势。