中文文档图像的数学公式定位

被引量 : 0次 | 上传用户:zhongqiangcumt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和科技手段不断地进步发展,科学文献以电子档形式出现的需求越来越多,关于实现科学文献电子化的方法得到更加广泛的关注和深入的研究。数学公式是许多科学和科技资料的重要组成部分,对读者理解文献往往起着至关重要的意义,所以电子化数学公式的技术手段尤为重要。目前,光学字符识别(Optical Character Recognition, OCR)技术可以高效便捷地识别文档中的字符,但由于数学公式结构的复杂性、符号的多样性以及符号的歧义性等原因,OCR并不能完全准确地识别这些数学公式,而且识别率很低。对于另一种传统方法,即人工手动录入数学公式的方式,从时间效率和可操作性角度上分析,这种方法低效且困难。因此研究一种有效、快捷的数学公式识别技术极具理论意义和实践价值本论文的主要研究内容是数学公式的定位,针对中文文档图像,提出一种有效的方法定位文档中的数学公式。大部分学者的研究中将公式识别系统分成四个阶段:公式定位、公式识别、公式解析和公式重构。本论文的研究属于数学公式研究中重要的一部分,在相关研究中,主要面临以下几个挑战:(1)在文档中,数学公式出现的位置并不固定,可能嵌于文本行之间,也可能独立于一行存在。(2)数学公式的宽度并不像中文文本格式一样,字符块大小固定,呈现出的结构也比较复杂。为了解决这些问题,本文将公式定位系统分四步进行:1)对中文文档图像进行预处理,利用中值滤波、均值滤波等方法进行滤波去噪,采用模糊阈值分割法、IsoData等方法进行二值化,使用标准霍夫变换进行倾斜校正;2)对文档文本行切割提取,采用投影分割法,提取每一行的最大外接矩形框;3)对于独立行公式定位,针对2中提取的每一行矩形框,基于SⅥ订模型进行行分类,并定位独立行公式;4)对于内嵌行公式定位,提取基于字符外形和内容的混合特征,利用贝叶斯模型判别每一字符的类别,定位出内嵌行公式。本文在电子版的教材上进行实验,结果验证了本文所提出的公式定位系统能够有效定位电子文档中的数学公式,结果表明本文提出的公式定位算法具有一定的理论意义和实践价值。
其他文献
随着Internet的发展,以Web服务及面向服务架构SOA(Service-Oriented Architecture)为代表的新兴分布式计算技术得到了迅猛的发展。通过动态组合多个原子服务形成复杂的大粒度业
随着嵌入式技术、通信技术、传感器技术和编码技术的进步,多媒体传感器网络(wireless multimedia sensor networks, WMSNs)取得了很大发展。由于其可广泛应用于生物医学监测
随着移动通信技术和移动业务种类的迅速发展,用户迫切希望一些互联网上的业务能够在手机中得到应用。即时通讯就是对用户具有强大吸引力的移动网络服务之一。J2ME作为SUN公司
学位
文本分类是文本挖掘中的一个热门研究领域。分类的流程包含关键的几个环节,每个环节处理的合适与否都对文本分类的结果有一定的影响,其中文本特征降维是分类过程中最重要的环
随着多Agent系统技术的日益成熟,基于多Agent的工作流已成为工作流技术发展的主流方向之一。目前的研究主要集中在基于多Agent的工作流建模,但是在实际应用中,存在着这样一类问
当前流行的企业资源管理系统中,ERP(Enterprise Resource Plan)已经成为企业先进管理思想的体现,但是成功引进ERP软件受诸多因素的影响,其中软件设计起决定性的作用。本论文
近年来,超分辨率已成为图像处理领域中的研究热点。所谓图像超分辨率处理就是从一序列降质的低分辨率图像中获取高分辨率的图像。超分辨率技术已经广泛应用在卫星遥感、军事
本文应用粗糙集的理论和方法从矿井评价指标决策表中提取相应的规则,并应用于对瓦斯突出矿井的等级评价体系中。该研究可以丰富评价瓦斯突出矿井等级的手段。   本文首先
学位
随着现代化的推进,计算机软件已广泛应用于航天航空、武器装备、交通等安全攸关的系统中。由于在安全攸关实时系统中一个微小的逻辑错误都有可能导致不可预见的灾难性后果,所
微波辐射热效应目前在医学界得到广泛应用。其中包括利用微波热效应体外净化自体外周血干细胞来治疗白血病。微波辐射净化法以安全、使用简便、价格低廉等特点引起人们的广泛