论文部分内容阅读
自然场景中的文本信息提取是计算机视觉领域中一个非常重要且具有挑战性的难题,在图像视频检索、助盲翻译系统、智能交通领域中有着广泛的应用前景,因此越来越受到各大公司和研究人员的极大关注。自然场景中的文本信息提取包括文本区域的检测、分割和识别。文本检测作为文本信息提取的第一步,它检测的准确性对后续的分割和识别具有重要的意义。另一方面由于深度学习已经成功应用在图像分类等领域,因此本文在深度学习的框架下对文本检测进行研究,提出了基于卷积神经网络的有监督文本检测方法和基于自动编码器的无监督文本检测方法,提高了文本检测的准确率。本文的主要工作如下:(1)设计了可以方便地生成训练测试数据集的半自动的文本标注工具并使用该工具创建了一个文本检测基准训练测试数据集。由于深度学习框架采用多层网络模型,需要大量的输入作为训练集,现有的文本检测训练集还不能满足要求,且使用不便。为此,本文设计了一个可以方便地生成训练数据集的半自动的文本标注工具并使用该工具创建了一个文本检测基准训练测试数据集,本数据集取部分ICDAR2003和SVT数据集,共计4127张图像,利用本工具获得60000个正样本图像块,71733个负样本图像块用于训练,10000个图像块用于测试,从而大大缩短了实验周期,为不同算法的性能评测提供了基础数据。(2)提出了一种基于卷积神经网络有监督特征学习方法对自然场景中的文本进行检测。CNN(卷积神经网络)是一种多层感知器,这种网络结构对平移、比例缩放、倾斜或者其它形式的变形具有高度不变性,从而提高了文本检测的准确率,在实验测试数据集上获得了93.56%的分类准确率。(3)提出了一种基于稀疏自动编码器的无监督学习方法检测自然场景中的文本。该方法以重构误差最小为代价进行数据的特征学习,并在自动编码器的基础上加入稀疏性约束限制,从而获取更加有效的特征表示。该方法在我们的实验测试数据集上获得了92.85%的分类准确率。(4)通过对无监督特征学习算法和有监督特征学习算法两种方法的实验结果进行分析,可以得出如下结论:基于CNN有监督特征学习的文本检测分类效果,略优于基于SAE(Sparse AutoEncoder)无监督特征学习的文本检测,但可能是由于SAE加入了稀疏性约束的原因,在速度上要比CNN快,另一方面由于SAE采用的是无标签数据,因此具有很大的提升空间。