论文部分内容阅读
随着智能拍照手机的普及和互联网大数据的兴起,场景文本识别的应用越来越广泛,诸如移动翻译系统、车辆识别、多媒体检索、盲人导航等。最近几年场景文本识别受到了广泛关注,未来场景文本识别将应用到我们生活的各个角落。 本文主要研究场景文字特征提取方法,提出基于主成分分析网络(PCANet)的场景文字特征提取和识别方法,并且对PCANet方法进行改进以提高场景文字识别率。PCANet是一种基于卷积神经网络的特征学习方法,该方法将卷积神经网络的卷积核变为由PCA方法所计算出来的主特征。卷积核所卷积获得的图像代表着某一个区域的显著程度,该方法的卷积核大小是固定的。而对于场景字符来说,字符的大小、背景、字体粗细等变化较大,因此采用单一尺度不能满足场景文字识别的需要,会导致识别率降低,需要对PCANet进行改进。本文不仅提出把PCANet应用到场景字符特征提取和识别中,并在此基础上提出了一种新的更加鲁棒的方法,即多尺度的PCANet。该方法将原来单一尺度的卷积核变为多尺度的卷积核,多尺度卷积计算是同时进行的,卷积完成后将多尺度图像混合在一起进行下一层的运算。这样即使字符的字体大小与粗细等发生变化,也能在多尺度下进行特征匹配。通过减少主特征数量,其识别速度不会因为使用了多尺度卷积核而变慢。在Chars74K上的实验表明,本文提出的多尺度PCANet方法的识别率比原先我们提出的基于PCANet的方法结果提升了7.18%,显著提高了场景文字识别率。并且该方法优于其他大部分的研究结果。