文本页面中数学表达式的定位及分析

来源 :苏州大学 | 被引量 : 0次 | 上传用户:h4628241
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子文档具有容易修改、检索和传输等优点,从而基于移动办公终端的文档实时电子化变得越来越频繁。文档的电子化必须经过页面分割和字符识别,页面内通常含有多种元素如字符、图片、表格和数学表达式等,其中数学表达式的分析、识别和重组是文档电子化的难点。因此研究高效的分析算法十分必要,本文的工作主要体现在以下几个方面:鉴于文本页面各文本元区域的前景像素存在自相关性,本文提出了基于微结构的页面分割算法来切分文本页面。首先采用快速扫描算法将前景像素归类并形成微结构集,利用微结构的相关性分类出页面含有的图元、表格元等;改变合并规则合并分类后的字符元得到字符区,选取字符区域的最大者结合最小二乘法检测字符区的倾斜角度来校正页面;最后利用微结构并结合水平投影将校正后的页面切割为文本行。数学表达式的二维结构特性使数学表达式行与普通文本行存在很大差异,本文利用这些差异将独立表达式行与普通文本行区分开来;接着采用连通体搜索方法搜索分类后的文本行,判断搜索得到的连通体与该文本行上下基线的关系确定内嵌表达式所在位置,结合最大投影间隔法切分出内嵌表达式,最后借助微结构和投影法分析数学表达式结构。实验结果表明,本文提出的算法是有效的,并具有较好的稳定性、适应性。此外,将文本元逐个分类和分解会增加识别的成功率,更加有利于字符的识别。
其他文献
G.729算法是国际电信联盟ITU制定的一种高质量的语音压缩标准,该标准是采用“共扼结构一代数码激励线性预测(CS-ACELP)”算法,主要应用于IP电话、移动通信、多媒体网络通信和
随着高速数字信号处理器和通信技术的发展,多载波调制技术已经成为实际应用中的一种数字调制技术。离散多音调制(DMT)是多载波调制的一种重要方式,在有线通信技术中得到了广
未来通信技术和业务发展的-大趋势是无线通信、计算机和因特网(Internet)的融合。为了实现该目标,首要问题就是需要提高高速数据在移动信道中的传输效率和质量,有效对抗多径衰
自从1993年Turbo首次提出以来,很快便为国际信息论和编码理论界研究的热点。同时与Turbo码结合的信源信道联合编码也引起了人们很大的兴趣。Turbo码之所以有其他纠错码不可比
海洋水声信道是一种极其复杂多变的时-空-频变信道,信道通带窄、多径干扰强、信号衰落严重是水声通信中信息高速可靠传输的主要障碍。因此如何在水声信道中高速可靠地传输数据