多特征融合的数学公式字符识别技术研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:liongliong588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息化技术不断地发展,科学文献以电子档的形式出现的需求越来越多,如何实现科学文献的电子化得到更加广泛的关注和深入的研究。数学公式是许多科学文献的重要组成部分,对文献的理解往往起着至关重要的意义,所以数学公式的电子化尤为重要。中学数学智能解答中题目的输入是一个重要的研究内容,题目中也包含了不少数学公式。当前的OCR (Optical Character Recognition)技术可以很好地识别中英文字符以及数学字符,但由于数学公式结构的复杂性、符号的多样性以及符号的歧义性等原因,使得OCR对数学公式的识别变得较为困难,识别准确率低。另一方面数学公式手工输入比较困难,从而自动、高效的数学公式识别技术是必须突破的研究。研究数学公式字符识别技术的研究,是数学公式处理研究中的一部分,和数学公式定位、数学公式分析以及数学公式输出一起构成整个数学公式处理。针对的是印刷体文档中的数学公式识别问题,主要研究的对象是数学公式图像。数学公式的结构不是简单的一维的,而是复杂的二维的;字符出现在不同的位置所表示的意义是不一样的,字符没有统一的大小;数学公式中包含的字符有数字、字母、运算符号等,种类繁多。以上这些原因给数学公式符号的分割和识别都带来了一定的难度。数学公式识别系统主要研究数学公式中的字符分割和字符识别两个部分。在对数学公式图像进行分割前,对图像进行了预处理工作。预处理工作包括图像滤波去噪、图像二值化、图像倾斜校正和图像细化。数学公式符号分割采用的是投影法和连通域分割法相结合的方法,设计的算法可以很巧妙地分割出单个符号。对分割得到的单个符号做归一化处理,为后续的特征提取和识别做了充分的准备。针对当前识别的低准确率和常见混淆符号的难识别性,提取三组具有代表性的特征:横纵交截特征、基于像素的网格特征和孔洞特征。特征相互之间存在一定的互补性,将这些特征输入条件随机场中进行训练,从中学习得到对应的条件随机场,并对测试数据集做识别测试。基于特征融合训练的条件随机场,对符号识别的正确率达到了的97.1%,比传统的识别方法具有更好的识别效果。
其他文献
公文流转系统是一个办公自动化系统中的通用构件,而且是一个非常重要的构件,一个优秀的公文流转系统可以很好的和OA协同,大幅度提高OA内的信息共享、人员协作与业务监督的效
随着生物信息学的迅速发展,人们对生物学的研究已经逐渐扩展到蛋白质组学的层面。关键蛋白质的移除会造成有关蛋白质功能模块的功能丧失,进而使细胞无法正常的进行生命活动,
可编程逻辑控制器作为现代工业控制四大支柱之一,在各种工业过程控制及各类机电一体化设备控制中得到极为广泛的应用。随着IEC61131-3标准的逐步推广和软硬件结合方式的普遍
随着车辆技术的发展和车辆的普及,车辆已经成为生活中不可或缺的部分,车用自组织网络VANET(Vehicular Ad hoc Network)作为一个新的无线通讯研究领域,已经成为智能交通系统IT
网络教学平台作为网络教学的支撑平台随着网络教学的流行得到广泛应用。近年来,强调多种学习理论或学习模式融合的混合式学习受到普遍关注。作为下一代互联网的语义网在知识共
学位
蠕虫病毒是一种通过网络传播的恶性病毒,自世界上第一例蠕虫病毒问世以来,蠕虫病毒在全球互联网上造成的危害性越来越大。因此,针对蠕虫病毒检测技术的研究已经成为网络工作
近年来,计算机软件的应用已经渗入到了国防、航天、交通和医疗等各个关键领域,因此提高软件的质量已成为一项十分紧迫的任务。软件测试是保证软件质量的一种重要手段。相比于
随着计算机和互联网技术的不断发展,网络应用越来越广泛。网络安全的重要性日益凸显,已成为各个安全组织、机构的研究热点。而攻击重演平台是将网络攻击方法、攻击工具、攻击决
IPv6(Internet Protocol Version 6,IPv6协议)和IPv4一样是工作在网络层的协议,它是TCP/IP协议的重要组成部分。IPv6协议吸收了IPv4的优点并弥补了其不足,它具有地址空间巨大
随着移动通信和电子技术的发展,移动对象管理变得越来越重要,已经成为了近年来研究领域中的热点问题,具有重要的理论和现实意义。移动对象的特点是位置持续变化,索引中的索引