论文部分内容阅读
目前,我国在许多商业和政府机构、通讯、医院、保险行业中,票据处理是个繁重的劳动。长期以来,票据管理工作因管理手段落后,各类票据的打印、整理、装订和归档需要花费大量的人力和物力。同时各类票据凭证的事后监督与归档的分离也浪费了大量的人力和物力。为了解决票据处理带来的繁重劳动,充分发挥计算机的作用,本文以商业发票为原形,运用图像处理、模式识别方法,实现了一个完整的发票自动处理系统。对每一个流程模块进行了详细的讨论,并给出具体的解决方案。 首先对发票版面进行分析学习,确定其定域和变域及其相对位置、表格的尺寸、和兴趣区域等特征,形成不同种类发票的不同模版。根据发票的定位、发票的学习分析和模板的匹配,可以精确的定位出兴趣区域。 使用改进的Hough变换算法来对发票进行定位。在定位的同时,可利用Hough变换获得发票的倾斜角度,对倾斜角度过大的发票进行倾斜校正,有效地解决了发票倾斜对数字识别的影响。 着重研究了发票表格图像中手写体数字的无损脱框提取、对连笔数字的分割方法。运用数学形态学原理,对提取数字进行还原补偿和噪声处理。结合OPTA细化算法和Hilditch细化算法,使细化结果更加平滑规整。提取手写体数字的宏观统计特征和微观结构特征,并通过计算,去除伪特征。 根据不同特征,不同分类器的互补性,运用多分类器组合的方法,并结合了置信度理论,提出各类别置信度概念,反映了分类器把样本分为不同类别的可信度,根据分类器各类别置信度进行动态组合,充分发挥每个分类器在各自分类性能上的长处,提高了组合后的分类器识别率。 通过对发票中多点信息的分析比较,对识别结果进行正确性检测,有效的降低了识别结果的错误率。