自然场景下汉字定位与识别方法研究

来源 :东北师范大学 | 被引量 : 4次 | 上传用户:wyattwong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能交通系统、视觉辅助和自动驾驶等新技术的发展,通过摄像头获取场景图像,并利用计算机对场景图像的内容进行分析和理解成为当前学术界和工业界的研究热点。与纷繁复杂的背景相比,场景图像中的文字携带了更多的有用信息,是理解场景内容的有效线索。因此,自然场景图像中的文本定位和识别技术成为计算机视觉和模式识别领域的重要研究课题。目前,国内外的研究主要针对自然场景中的英文字符,对中文字符的研究还较少。由于汉字具有结构复杂、字符集巨大、字符间相似度高、字体风格变化多样等特点,其定位和识别较英文字符具有更高的难度。本文主要针对自然场景下的汉字定位和识别算法进行了研究。在最大稳定极值区域算法的基础上,模仿人的视觉机理提出了通过颜色聚类提取感兴趣区域的方法,同时进一步结合笔画宽度、角点特征以及其他基于汉字几何特征的启发式规则过滤虚警,最后采用深度卷积神经网络设计了一个针对汉字和背景的二分类器,以便进一步剔除和汉字具有较高相似度的背景区域,以此提高了场景图像中文字区域的定位准确率。在该深度卷积神经网络的设计和训练过程中,引入了多种创新性策略,如样本数据扩增、加入BN层、运用SGD和Adam两种优化器精调网络、改进网络结构和损失函数等,实现了利用有限的数据尽可能提高网络的分类效果,同时缩短训练时间的目的。在自建场景图像数据库中进行算法验证,结果表明本文提出的方法在场景图像中文本的召回率和准确率方面均高于现有方法。本文还针对汉字图像的识别技术进行了深入研究。建立了包含国标一级字库共计3755类,涵盖宋体、楷体、黑体等印刷体,以及行楷、黛玉体等近似手写体,共计22种字体的数据库。针对无遮挡的印刷及手写体汉字图像,提出了一种深度卷积神经网络模型。不考虑附加层,该网络主要由3个卷积层、2个池化层、1个全连接层和一个Softmax回归层组成。通过综合运用数据扩增、引入BN层、使用多种优化器等创新性的训练方法,有效提高了网络的泛化能力和识别效果,在自建数据库中对测试样本的识别率达到98.336%。
其他文献
目的:探讨贲门-胃小弯癌手术方法、术后并发症预防、术后营养支持与生存率的关系。方法:回顾性分析1995年10月至2009年12月间手术治疗128例贲门-胃小弯癌患者的临床资料。按
以季戊四醇为起始剂,与环氧丙烷、环氧乙烷在一定的温度下进行嵌段共聚或无规共聚,得到一系列不同分子量及不同结构的共聚醚,发现季戊四醇与环氧丙烷或环氧丙烷和环氧乙烷的
2003年12月5日,韩国忠清北道、阴城爆发禽流感(AI);2003年12月30日,我国台湾金门发现AI;2004年1月12日,日本山口县发生AI;1月27日,我国广西隆安确诊内地首例AI.
《德国专利法之简化和现代化法》已于2009年10月1日正式生效。该法涉及到《专利法》、《实用新型法》、《外观设计法》和《雇员发明法》等诸部法律的最新修改。简要介绍了此
本文研究了不同碳源、氮源和无机盐等营养条件对莱芜灰树花菌丝体生长的影响,结果表明,莱芜灰树花菌丝体生长最适碳源为甘乳糖,最适氮源为(NH4)2SO4、KH2PO4,对菌丝体的生长
目的探讨分娩过程中引起新生儿臂丛神经损伤的有关产科因素及预防措施.方法对23例新生儿臂丛神经损伤进行回顾性分析.结果 肩难产和臀位分娩是臂丛神经损伤的主要原因. 结论
为了使吉林台水电站施工导截流顺利进行,在吉林台施工导截流设计中,充分利用了岸坡完整岩体与围堰结合,降低了围堰渗水,同时利用突出岩体做成"丁"字坝,减小了截流难度,取得了一
围绝经期系指妇女一生中自性成熟期进入老年期的一个过渡时期,此阶段实质上为卵巢功能退化、生殖能力停止的以性腺为主的老化过程。卵巢功能的衰退最明显的临床指标是绝经。
吉林台一级水电站深孔泄洪洞,原设计方案采用弧门处不作突扩跌坎,并取消出口斜洞段的泄洪建筑物布置体型方案。本试验以原方案为基础,通过水工模型试验,重点就深孔泄洪洞有压洞出
详细分析了超精密机床加工中,激光测量系统误差组成及其产生机理,给出了有效的修正和补偿手段.影响激光测量系统精度和重复精度的主要误差因素可分为3类:内部误差、环境误差