论文部分内容阅读
伴随着信息化技术不断地发展,科学文献以电子档的形式出现的需求越来越多,如何实现科学文献的电子化得到更加广泛的关注和深入的研究。数学公式是许多科学文献的重要组成部分,对文献的理解往往起着至关重要的意义,所以数学公式的电子化尤为重要。中学数学智能解答中题目的输入是一个重要的研究内容,题目中也包含了不少数学公式。当前的OCR (Optical Character Recognition)技术可以很好地识别中英文字符以及数学字符,但由于数学公式结构的复杂性、符号的多样性以及符号的歧义性等原因,使得OCR对数学公式的识别变得较为困难,识别准确率低。另一方面数学公式手工输入比较困难,从而自动、高效的数学公式识别技术是必须突破的研究。研究数学公式字符识别技术的研究,是数学公式处理研究中的一部分,和数学公式定位、数学公式分析以及数学公式输出一起构成整个数学公式处理。针对的是印刷体文档中的数学公式识别问题,主要研究的对象是数学公式图像。数学公式的结构不是简单的一维的,而是复杂的二维的;字符出现在不同的位置所表示的意义是不一样的,字符没有统一的大小;数学公式中包含的字符有数字、字母、运算符号等,种类繁多。以上这些原因给数学公式符号的分割和识别都带来了一定的难度。数学公式识别系统主要研究数学公式中的字符分割和字符识别两个部分。在对数学公式图像进行分割前,对图像进行了预处理工作。预处理工作包括图像滤波去噪、图像二值化、图像倾斜校正和图像细化。数学公式符号分割采用的是投影法和连通域分割法相结合的方法,设计的算法可以很巧妙地分割出单个符号。对分割得到的单个符号做归一化处理,为后续的特征提取和识别做了充分的准备。针对当前识别的低准确率和常见混淆符号的难识别性,提取三组具有代表性的特征:横纵交截特征、基于像素的网格特征和孔洞特征。特征相互之间存在一定的互补性,将这些特征输入条件随机场中进行训练,从中学习得到对应的条件随机场,并对测试数据集做识别测试。基于特征融合训练的条件随机场,对符号识别的正确率达到了的97.1%,比传统的识别方法具有更好的识别效果。