机打发票印刷体数字自动识别算法的研究与实现

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:beimenchuiyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国信息化技术的不断升温,各行各业的自动化操作手段也在随势而新,会计电算化已经不是新话题,发票作为经济活动中的一个重要依据,其信息的收集、存储已然成为了一项“重体力劳动”,采用传统的人工录入发票信息形式会耗费更多的人力、物力和财力,因此,利用现代信息处理技术来实现发票信息识别工作尤为迫切。当前地方国家税务机打发票由于其小巧性而被广泛普及使用,本文结合该机打发票的版面特征,利用特征识别以及OCR技术,研究出一套发票数字自动识别算法,并利用Microsoft Visual Studio 2010软件开发平台,完成了发票数字自动识别的软件设计,实现了对该种发票的快速、无误识别。本文以扫描仪作为采集发票信息的方式,将发票扫描图像作为识别的输入对象,通过对机打发票的版面进行分析,确定了识别算法的设计过程。图像的预处理过程中,采用中值滤波法对图像进行平滑去噪处理,在进行图像均衡化处理之后采用了最佳阈值迭代法得到了二值化图像,由于发票版面无表格形式的特殊性,给发票的倾斜校正带来了挑战,文中采用求连通域中心点坐标的方式求出图像倾斜角,从而实现了对发票倾斜的校正。利用水平和垂直投影法对发票信息区进行了准确的定位和单个字符的分割,采用双线性插值算法对数字进行了归一化,识别算法中,先对分割后的数字图像进行了骨架提取,提出了基于七段式笔画特征、结构特征及连通域特征相结合的特征提取方法,采用基于形状特征匹配的识别算法对机打发票的发票代码和发票号码进行识别。在算法设计过程中利用了MATLAB软件完成算法验证,并在基于Microsoft Visual Studio 2010和opencv2.4.10软件平台上完成了软件的搭建和编程工作。文章的最后对收集到的179张地方国家税务发票进行了软件识别测试,其中发票代码的识别率为95.58%,发票号码的识别率为96.26%,基本实现了算法和软件设计的目标。基于对算法的软件测试结果,可以看出本文对机打发票印刷体数字自动识别的算法是可靠的,且实时性好,具有实际意义。
其他文献
经济全球化的发展加快了行业之间的波动变化,金融市场之间的影响关系复杂且瞬息万变,呈现出非线性、非对称性和尾部相关性等特征,因此对金融市场中经济变量的影响关系研究变
随着三季度各项经济数据的发布以及上市公司三季报的发布(基本已确定全年业绩),市场对大盘的悲观预期(其中驱动因子主要有金融监管超预期收紧、金融去杠杆冲击实体经济)已经被证
为全面贯彻党的十九大精神和习近平生态文明新思想和治水重要论述精神,为最严格水资源管理制度和河长制实施提供科学依据,论文对邯郸市水功能区纳污能力进行研究计算并提出符合实际情况的入河污染物削减方案。通过污染物排放量逐年减少方式,实现水功能区入河排污口布局合理,污染物排放量达标,水环境质量改善。论文以邯郸市水功能区为研究对象,针对邯郸市水资源开发利用程度高、水功能区多列为国家考核范围、山区河流源短流急、
目的:1.探讨超声内镜对消化道隆起型病变诊断价值,重点分析间质瘤、平滑肌瘤、脂肪瘤、囊肿、息肉、异位胰腺、血管瘤等疾病的超声内镜特点。2.以病理诊断为标准评估超声内镜
〔摘要〕构建以用户为中心的信息推送服务是泛在信息环境的发展趋势,在充分掌握泛在信息推送服务的内涵与研究背景后,探讨了情境感知技术和数据挖掘技术在泛在信息推送服务领域的作用机制,在此基础之上构建了一个基于情境感知和数据挖掘的泛在信息推送服务体系,重点阐述了服务体系的组成与各部件之间的关系,同时还介绍了泛在信息推送服务关键技术、面临的挑战和实施保障。研究结果能为泛在信息推送服务的研究与实践提供一定参考
双线偏振多普勒天气雷达可以比常规天气雷达从云雨粒子中获取更多的雷达回波参量,可以明显提高降水强度的估测精度,改善雷达测量单点流域的降水和降水总量的效果,提高雷达对
目的:通过分析Catphan模体CTP486模块的四维CT(4D-CT)图像,研究呼吸时相和模体位置对4D-CT图像均匀性的影响。方法:使用西门子Sensation Open CT模拟机和瓦里安RPM系统,获取Catphan 504模体CTP486模块的4DCT图像。对3种模体位置情形进行研究。情形A:模体悬空放置;情形T:模体下有一个碳纤维CT平板床;情形B+T:模体下有一个碳纤维固定底板和一个