论文部分内容阅读
电子文档具有容易修改、检索和传输等优点,从而基于移动办公终端的文档实时电子化变得越来越频繁。文档的电子化必须经过页面分割和字符识别,页面内通常含有多种元素如字符、图片、表格和数学表达式等,其中数学表达式的分析、识别和重组是文档电子化的难点。因此研究高效的分析算法十分必要,本文的工作主要体现在以下几个方面:鉴于文本页面各文本元区域的前景像素存在自相关性,本文提出了基于微结构的页面分割算法来切分文本页面。首先采用快速扫描算法将前景像素归类并形成微结构集,利用微结构的相关性分类出页面含有的图元、表格元等;改变合并规则合并分类后的字符元得到字符区,选取字符区域的最大者结合最小二乘法检测字符区的倾斜角度来校正页面;最后利用微结构并结合水平投影将校正后的页面切割为文本行。数学表达式的二维结构特性使数学表达式行与普通文本行存在很大差异,本文利用这些差异将独立表达式行与普通文本行区分开来;接着采用连通体搜索方法搜索分类后的文本行,判断搜索得到的连通体与该文本行上下基线的关系确定内嵌表达式所在位置,结合最大投影间隔法切分出内嵌表达式,最后借助微结构和投影法分析数学表达式结构。实验结果表明,本文提出的算法是有效的,并具有较好的稳定性、适应性。此外,将文本元逐个分类和分解会增加识别的成功率,更加有利于字符的识别。