论文部分内容阅读
随着我国信息化技术的不断升温,各行各业的自动化操作手段也在随势而新,会计电算化已经不是新话题,发票作为经济活动中的一个重要依据,其信息的收集、存储已然成为了一项“重体力劳动”,采用传统的人工录入发票信息形式会耗费更多的人力、物力和财力,因此,利用现代信息处理技术来实现发票信息识别工作尤为迫切。当前地方国家税务机打发票由于其小巧性而被广泛普及使用,本文结合该机打发票的版面特征,利用特征识别以及OCR技术,研究出一套发票数字自动识别算法,并利用Microsoft Visual Studio 2010软件开发平台,完成了发票数字自动识别的软件设计,实现了对该种发票的快速、无误识别。本文以扫描仪作为采集发票信息的方式,将发票扫描图像作为识别的输入对象,通过对机打发票的版面进行分析,确定了识别算法的设计过程。图像的预处理过程中,采用中值滤波法对图像进行平滑去噪处理,在进行图像均衡化处理之后采用了最佳阈值迭代法得到了二值化图像,由于发票版面无表格形式的特殊性,给发票的倾斜校正带来了挑战,文中采用求连通域中心点坐标的方式求出图像倾斜角,从而实现了对发票倾斜的校正。利用水平和垂直投影法对发票信息区进行了准确的定位和单个字符的分割,采用双线性插值算法对数字进行了归一化,识别算法中,先对分割后的数字图像进行了骨架提取,提出了基于七段式笔画特征、结构特征及连通域特征相结合的特征提取方法,采用基于形状特征匹配的识别算法对机打发票的发票代码和发票号码进行识别。在算法设计过程中利用了MATLAB软件完成算法验证,并在基于Microsoft Visual Studio 2010和opencv2.4.10软件平台上完成了软件的搭建和编程工作。文章的最后对收集到的179张地方国家税务发票进行了软件识别测试,其中发票代码的识别率为95.58%,发票号码的识别率为96.26%,基本实现了算法和软件设计的目标。基于对算法的软件测试结果,可以看出本文对机打发票印刷体数字自动识别的算法是可靠的,且实时性好,具有实际意义。