字符识别结果可信度测定技术

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:lovinglixia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符识别结果的可信度测定技术是基于模式识别系统的研究,能够比较准确地估计字符分类结果准确性的技术。课题研究的银行票据OCR(opticalCharacter Recognition)系统是一种专用的OCR系统,特点是涉及到的都是支票、数据之类的一些票据,识别的字符集小,对字符识别结果的精度要求很高。其中,误识率的要求相当严格,理论上要求误识率趋近于0,这就为字符识别系统的后处理提出了较高的要求,要求有过硬的手段对字符识别结果进行判别并具有一定的纠错能力,如采用字符识别结果的置信度方法来保证可信度。因此,字符识别结果的置信度测定技术是票据OCR系统的关键技术之一。 本文的主要研究工作集中在字符识别结果的可信度测定技术,研究识别结果的置信度和综合可信度来保证识别结果的可信程度。有了置信度这个定量的数据,可以根据置信度的高低判别可信程度。依据置信度不仅可以进行拒识,而且在分类器的组合中,可以利用分类器的置信度信息,进行分类器的串联、并联组合。基于置信度信息,还可以进行样本的选择,选择后的样本更适合做样本集进行训练学习,提高识别精度。 本文第一章简要介绍了字符识别的背景、难点,阐述了票据OCR系统中的关键技术,确定了本文的研究重点为汉字识别结果的可信度测定技术。 第二章介绍系统中的基础部分即:手写体汉字特征的提取和分类器的选择,并且特征和分类器的选择是基于可信度测定技术的研究。本章重点研究模板匹配分类器、神经网络和支持向量机,其中模板匹配分类器和神经网络可以很好的结合置信度信息进行应用。 第三章概述了广义置信度和置信的基本概念,讨论了广义置信度的估计公式,并用实验论证了适用于这个系统的广义置信度估计公式,并进一步通过映射函数得到了可信程度的绝对度量:置信度。另外,本章还简要论述并验证了识别结果的综合可信度的有效性。 第四章讨论置信度在实际系统中的应用,论证基于置信度的分类器组合和样本选择。本文在分类器组合上提出了一种新的基于广义置信度的二级分类策略,新方法在一定的阈值范围内达到较高的识别正确率99.57%,比单独选用距离分类器的识别正确率98.46%要高。基于识别结果综合可信度的可靠性,本文把综合可信度和样本选择问题结合起来讨论,这是本文的另一创新点。基于综合可信度进行样本选择后,识别正确率达到了98.7%,而基于广义置信度得到最高正确率为98.63%。 第五章总结本文所做的主要工作以及取得的成果,指出本文的不足并对将来的研究工作进行展望。
其他文献
目前,由于我国支票使用总量的年年增加,给银行业务带来很大的工作量和压力。影像化支票自动识别作为解决此问题的一种计算机应用技术,已经越来越多的受到人们的重视和研究。而在
随着互联网的发展,网上信息迅速增加,搜索引擎作为帮助人们从网络中快速获取信息的工具,使用日益广泛。但由于存在许多网页转载的情况,搜索引擎的返回结果中存在重复信息,既
我国证券市场已走过了十几年的历程,虽然起步较晚,但在证券信息计算机处理方面起点很高、发展迅猛。随着近年来网络技术的飞速发展和用户操作水平的提高,证券公司证券交易、网络
随着计算机、通讯技术的不断发展,人们越来越迫切希望可以在任何时候、任何地点、与任何机器都可以自然交流,而语音通信则是一种最理想的人机通信方式,语音识别技术由此诞生
音字转换技术是建立在语言学、计算机科学、数学、信息论、人工智能等多个学科基础之上的一项综合研究,一直以来就是中文信息处理的研究热点,其最重要的应用之一就是中文拼音
随着互联网技术的飞速发展,网络为我们提供了多元化的海量信息,越来越多的人开始使用搜索引擎来获取所需要的信息。然而,虽然搜索引擎发展迅速,但其效果远未达到令人满意的程
对患者进行治疗是一个比较模糊的过程,它通常无法用一些准确的词语或数字来描述,这也是人们在看病时倾向于找有经验的医生的原因。然而由于治疗过程中病人的各项体征异常程度是
作业车间调度问题是制造系统设计中的一个重要问题。作业车间调度系统中,包括一个n个作业的工件集合和一个m台机器的设备集,其中每个工件包含一系列的操作,同时每个机器某一
船体下料是船体设计制造过程的最初环节,直接影响船体制造的钢材利用率,关系着造船企业的经济效益。本文以某船厂的船体型材零件自动设计为实际应用背景,通过型材下料图形系
随着XML的广泛应用,XML数据量呈指数级增长,如何高效地管理这些数据成为当前急需解决的问题。目前已有一些方法,如利用文件系统或传统的关系数据库系统来存储和管理这些数据