基于PCANet的场景字符特征提取方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:yongxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能拍照手机的普及和互联网大数据的兴起,场景文本识别的应用越来越广泛,诸如移动翻译系统、车辆识别、多媒体检索、盲人导航等。最近几年场景文本识别受到了广泛关注,未来场景文本识别将应用到我们生活的各个角落。  本文主要研究场景文字特征提取方法,提出基于主成分分析网络(PCANet)的场景文字特征提取和识别方法,并且对PCANet方法进行改进以提高场景文字识别率。PCANet是一种基于卷积神经网络的特征学习方法,该方法将卷积神经网络的卷积核变为由PCA方法所计算出来的主特征。卷积核所卷积获得的图像代表着某一个区域的显著程度,该方法的卷积核大小是固定的。而对于场景字符来说,字符的大小、背景、字体粗细等变化较大,因此采用单一尺度不能满足场景文字识别的需要,会导致识别率降低,需要对PCANet进行改进。本文不仅提出把PCANet应用到场景字符特征提取和识别中,并在此基础上提出了一种新的更加鲁棒的方法,即多尺度的PCANet。该方法将原来单一尺度的卷积核变为多尺度的卷积核,多尺度卷积计算是同时进行的,卷积完成后将多尺度图像混合在一起进行下一层的运算。这样即使字符的字体大小与粗细等发生变化,也能在多尺度下进行特征匹配。通过减少主特征数量,其识别速度不会因为使用了多尺度卷积核而变慢。在Chars74K上的实验表明,本文提出的多尺度PCANet方法的识别率比原先我们提出的基于PCANet的方法结果提升了7.18%,显著提高了场景文字识别率。并且该方法优于其他大部分的研究结果。
其他文献
语义Web作为目前Web的一个延伸,目标是使Web上的数据具有机器可识别的语义,便于人机之间的交互与合作。然而其实现面临着语义互联、规范组织和智能聚合等理论和技术障碍。为
随着经济全球化的发展,企业的采购、生产和销售日趋国际化。市场竞争日益加剧,越来越多的企业意识到传统的生产管理模式与多变的市场不相适应,于是企业开始寻求适合自身发展的新
面向运动目标的视觉分析是计算机视觉领域最活跃的研究主题之一,在高级人机交互、安全监控、视频会议、医疗诊断及基于内容的图像存储与检索等方面具有广泛的应用前景。运动
文本聚类是聚类分析领域的一个重要研究分支,是聚类方法在文本处理领域的应用。针对大规模高维的文本数据,如何实施有效的文本聚类算法是数据挖掘领域的研究热点。文本数据的
校园网作为学校重要的基础设施,担当着学校教学、科研、管理和对外交流等许多角色,能够安全有效的对教育网络带宽进行调度和分配,满足教育网络多媒体教学和远程教学、图书馆
学位
与平面显示技术相比,立体显示技术可以提供更全面的场景信息,为观众带来逼真的现场感,是人类一直以来对自然视觉重现的追求。以往立体显示技术需要借助各种辅助工具进行观看,
随着信息技术的发展,作为信息技术的基础,软件正在随着其规模的扩大和复杂性的提高,变得越来越难以开发和维护。互联网技术的发展更使得软件漏洞暴露在大量的攻击和入侵事件
随着现代计算机网络技术的发展,诸如银行系统、火车票网上订票系统、卫星控制系统等分布式系统得到广泛的开发和使用。针对大规模分布式系统以及安全至上的系统,容错能力是其设
基于超图的半监督学习因其既利用了有标记数据样本的信息又利用了无标记数据样本的信息,近年成为一个研究热点,有很高的研究及应用价值,在图像处理、模式识别、语音识别等领域已
交通标志牌作为一种重要的交通基础设施,可以为驾驶员和行人提供道路指引信息,规范驾驶员行为的同时也起到了便利交通、保障安全的作用。道路交通标志检测作为智能交通领域的一