基于统计分类的混排字符切分算法的研究

被引量 : 0次 | 上传用户:XIAOYU2529
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和计算机技术的日益普及,人类社会已进入信息时代,把各类载体上的原始信息转化为计算机可处理和传输的电子比特信息已成为要解决的重要问题。OCR技术成为有效解决手工输入文字信息的重要工具,旨在完计算机的自动录入,在各领域被广泛应用,并产生了巨大的社会效益和经济效益。目前,大多数OCR是基于对单个字符的逐个识别,字符切分是影响OCR系统识别的关键因素之一,它直接影响到识别的正确率。本文对中英文混排文档图像,提出了基于统计分类的混排字符切分方法。首先利用投影方法对字符进行初步切分,利用贝叶斯分类器判断字符类别;然后结合识别技术进行精细切分,判断字符是否为标点符号或汉字部件,对汉字部件进行合并,依据识别结果是否可信确定切分结果。判断并提取粘连字符,对于搭接粘连字符采用启发式的轮廓线跟踪切分方法,对下划线字符采用下划线提取和去除的方法,调用识别模块切分该类特殊字符。实验结果表明,该算法的正确切分率和识别率达到99%以上,该方法对中英文混排文档有较好的切分效果。
其他文献
幽默,可谓是日常生活中随处可见的一种现象,而且幽默也渐有成为人们日常交际生活中不可或缺的成份的趋势。然而,从语用学尤其是关联理论角度剖析幽默的著作、作品或研究,到目
本文从产业发展的角度,研究了企业生存的产业环境与市场结构,分析了不同产业发展环境下的企业技术创新行为,以及技术创新与市场结构之间的相互关系。本文的实证研究在已有文
目的探讨在常规抗结核治疗的基础上加用椎管内注药治疗结核性脑膜炎的临床疗效及安全性。方法选取符合标准的患者60例,随机分头观察组和对照组各30例,两组患者均给予常规治疗,观
本文的研究工作以国家“973”计划项目《高性能水泥制备和应用的基础研究》子课题化学外加剂对高性能水泥水化进程的影响为背景,探讨第三代——聚羧酸系高性能混凝土减水剂的
教学苏教版小学教学三年级下册"分数的初步认识(二)"时,为了让学生在用分数表示一个整体的几分之一,不受到物体个数的干扰,教者借助"魔盘""魔布""魔圈"创设有效情境,让学习内
本文总结了国内外高空作业车的发展现状,对国内目前仍没有完全解决的伸缩臂和混合臂式高空作业车的关键结构设计、工作斗调平技术等关键技术进行了研究分析。根据高空作业车
本文首先将我国建设项目经济评价指标与国际相应指标进行了对比分析,分析两者的共同点和差异,从不同的经济环境政策背景等因素中研究、揭示其中原因。在评价水利项目这类具有
储层表征是一种定量确定储层性质、识别地质信息及空间变化的方法,其最大的特点是与气藏管理结合,包含了技术和效益两个层面的内容。火山岩气藏非常复杂和隐蔽,研究者目前对
科学计量学是对科学本身进行定量研究的学科,它是科学学的一门重要分支。从上世纪90年代开始,科学计量学进入了全面反思阶段。世界各国科学计量学家们在反思中对科学计量学的
当今电子技术飞速发展,大规模集成电路越来越多的应用到电子系统中。由于系统时钟频率的迅速提高、信号跳变沿的不断缩短和电路集成密度的不断增加,信号完整性和电磁兼容性问