汉字特征提取及识别技术的研究

被引量 : 0次 | 上传用户:zhangstian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本定位与识别技术一直以来都是图像处理、计算机视觉领域的一个重要研究分支。随着Internet技术、多媒体技术的发展,大量融合复杂背景的图像文本出现在各种应用场合。如何让计算机高效地“理解”复杂背景下的汉字信息,以节省大量的人力,是对汉字识别技术提出的一个新的挑战。而基于这些图像文本的汉字识别技术自然也就成为了一个新的研究方向。传统的光学字符识别软件OCR(Optical Character Recognition)不能很好地处理此类图片,且常用的汉字结构特征和统计特征在表征汉字信息时也存在一定的局限性。针对以上问题,本文创新性地提出了采用局部特征来描述汉字的想法。本文首先选取并分析了代表性较强的Harris、SIFT、MSER特征检测算法,通过对比实验得出SIFT算子的检测效果最佳。随后,重点围绕局部特征展开了研究和讨论,分析了SIFT算法原理,再由汉字的形状特征及图像灰度信息出发,提出了两种新的特征描述子:(1)SSIFT(Shape SIFT)基于汉字相对全局形状特征和SIFT特征的描述子;(2)灰度差值统计描绘子GSD(Gray Scale Difference)。实验结果表明,新的算法在一定程度上克服、削弱了存在的问题,对汉字的旋转、尺度缩放、背景干扰具有很好的不变性。本文借鉴图片匹配的方式,通过计算汉字识别率来度量各种汉字特征的描述能力。通过对相关实验数据的分析,本文进一步提出了一种由粗到精的匹配策略,使得识别率又有了一定程度的提高。几何约束策略是文本的另一个研究重点。本文首先提出汉字存在局部结构重复的问题,分析了几何约束的原理及作用。在此基础上,提出了一种基于Mean-shift聚类的几何约束方法及一种新的适用于高维向量的度量准则,这个方法很好地解决了由于局部特性过于相似带来的误匹配问题,空间位置关系的约束使识别性能在一定程度上又有了提升。本文的研究成果丰富了汉字识别技术及其应用的研究思路,具有一定的理论意义和应用价值。
其他文献
对于一个像中国这样的大国而言,如何通过政府间关系的调整来达到更好的政府治理水平是摆在中央政府面前的难题,一方面要保证地方政府不会在经济上完全独立,避免威胁到社会和
针对数据转换器与数字信号处理器之间数据传输速率高达12.5Gbps的高速数据接口行业新标准JESD204B协议中的解码功能要求,在8B/10B解码基础上采用四字节并行处理技术,实现了极
数据挖掘涉及许多学科领域,它包含数据库技术、统计学、数据可视化技术、机器学习、人工智能和高性能数据挖掘算法等。随着数据挖掘技术的迅速发展,数据挖掘的研究重点逐渐从
近年来随着我国经济向好,旅游度假区呈现飞速发展的态势。但是同时,我们也注意到由于规划设计的草率盲目和存在误区,导致一些项目缺失了一种乡土精神,并造成了一定的恶果。本
随着现代生物医学工程技术产业的发展,医疗仪器已经成为医护人员的重要工具,医疗设备的质量水平是影响医疗服务质量水平的重要因素之一。因此,建立并完善医院医疗设备质量控
中国电子商务C2C拥有巨大的交易规模和用户数量,但盈利模式仍在探索中。电子商务C2C具有平台特征,发展过程中遇到的很多问题不能用传统经济学理论解释,本文将以双边市场理论为基
手机游戏业务的特点是用户基数庞大,总体市场潜在规模大;产品生命周期短,产品可替代性强;对技术平台和终端普及的依赖性强;手机游戏的开发和推广资金投入相对较小,进入壁垒也
不断扩展的便携式电子产品市场促进了学术界对高性能,低功耗,低电压电子系统的研究。对于广泛应用的音频便携式电子产品而言,SOC片上集成系统是一种高性能低成本的解决方案。
行为科学研究表明:不同的心态决定了人们不同的处事态度和行为方式,带来不同的行为后果。马斯洛(Abraham H.Maslow;1908-1970)说过:“心态若改变,态度跟着改变;态度改变,习惯跟
近年来,量子点(又称半导体纳米晶体)因其独特的电学和光学性质,引起了科学界越来越广泛的关注。与传统的荧光染料相比,量子点具有独特的优势,比如尺寸可调的荧光发射,窄且对