论文部分内容阅读
随着信息技术和科技手段不断地进步发展,科学文献以电子档形式出现的需求越来越多,关于实现科学文献电子化的方法得到更加广泛的关注和深入的研究。数学公式是许多科学和科技资料的重要组成部分,对读者理解文献往往起着至关重要的意义,所以电子化数学公式的技术手段尤为重要。目前,光学字符识别(Optical Character Recognition, OCR)技术可以高效便捷地识别文档中的字符,但由于数学公式结构的复杂性、符号的多样性以及符号的歧义性等原因,OCR并不能完全准确地识别这些数学公式,而且识别率很低。对于另一种传统方法,即人工手动录入数学公式的方式,从时间效率和可操作性角度上分析,这种方法低效且困难。因此研究一种有效、快捷的数学公式识别技术极具理论意义和实践价值本论文的主要研究内容是数学公式的定位,针对中文文档图像,提出一种有效的方法定位文档中的数学公式。大部分学者的研究中将公式识别系统分成四个阶段:公式定位、公式识别、公式解析和公式重构。本论文的研究属于数学公式研究中重要的一部分,在相关研究中,主要面临以下几个挑战:(1)在文档中,数学公式出现的位置并不固定,可能嵌于文本行之间,也可能独立于一行存在。(2)数学公式的宽度并不像中文文本格式一样,字符块大小固定,呈现出的结构也比较复杂。为了解决这些问题,本文将公式定位系统分四步进行:1)对中文文档图像进行预处理,利用中值滤波、均值滤波等方法进行滤波去噪,采用模糊阈值分割法、IsoData等方法进行二值化,使用标准霍夫变换进行倾斜校正;2)对文档文本行切割提取,采用投影分割法,提取每一行的最大外接矩形框;3)对于独立行公式定位,针对2中提取的每一行矩形框,基于SⅥ订模型进行行分类,并定位独立行公式;4)对于内嵌行公式定位,提取基于字符外形和内容的混合特征,利用贝叶斯模型判别每一字符的类别,定位出内嵌行公式。本文在电子版的教材上进行实验,结果验证了本文所提出的公式定位系统能够有效定位电子文档中的数学公式,结果表明本文提出的公式定位算法具有一定的理论意义和实践价值。