论文部分内容阅读
字符识别结果的可信度测定技术是基于模式识别系统的研究,能够比较准确地估计字符分类结果准确性的技术。课题研究的银行票据OCR(opticalCharacter Recognition)系统是一种专用的OCR系统,特点是涉及到的都是支票、数据之类的一些票据,识别的字符集小,对字符识别结果的精度要求很高。其中,误识率的要求相当严格,理论上要求误识率趋近于0,这就为字符识别系统的后处理提出了较高的要求,要求有过硬的手段对字符识别结果进行判别并具有一定的纠错能力,如采用字符识别结果的置信度方法来保证可信度。因此,字符识别结果的置信度测定技术是票据OCR系统的关键技术之一。
本文的主要研究工作集中在字符识别结果的可信度测定技术,研究识别结果的置信度和综合可信度来保证识别结果的可信程度。有了置信度这个定量的数据,可以根据置信度的高低判别可信程度。依据置信度不仅可以进行拒识,而且在分类器的组合中,可以利用分类器的置信度信息,进行分类器的串联、并联组合。基于置信度信息,还可以进行样本的选择,选择后的样本更适合做样本集进行训练学习,提高识别精度。
本文第一章简要介绍了字符识别的背景、难点,阐述了票据OCR系统中的关键技术,确定了本文的研究重点为汉字识别结果的可信度测定技术。
第二章介绍系统中的基础部分即:手写体汉字特征的提取和分类器的选择,并且特征和分类器的选择是基于可信度测定技术的研究。本章重点研究模板匹配分类器、神经网络和支持向量机,其中模板匹配分类器和神经网络可以很好的结合置信度信息进行应用。
第三章概述了广义置信度和置信的基本概念,讨论了广义置信度的估计公式,并用实验论证了适用于这个系统的广义置信度估计公式,并进一步通过映射函数得到了可信程度的绝对度量:置信度。另外,本章还简要论述并验证了识别结果的综合可信度的有效性。
第四章讨论置信度在实际系统中的应用,论证基于置信度的分类器组合和样本选择。本文在分类器组合上提出了一种新的基于广义置信度的二级分类策略,新方法在一定的阈值范围内达到较高的识别正确率99.57%,比单独选用距离分类器的识别正确率98.46%要高。基于识别结果综合可信度的可靠性,本文把综合可信度和样本选择问题结合起来讨论,这是本文的另一创新点。基于综合可信度进行样本选择后,识别正确率达到了98.7%,而基于广义置信度得到最高正确率为98.63%。
第五章总结本文所做的主要工作以及取得的成果,指出本文的不足并对将来的研究工作进行展望。