论文部分内容阅读
处于自然街景下的人获取信息的方式,在于其五种自然感官和先天条件下的自身感知。其中,视觉对于自然街景中的信息处理尤为关键,而在视力所及的众多信息中,最为直观且最易被理解的要数文本信息。科技的进步,促使文本目标检测和识别技术越来越发达。本文以自然街景为研究背景,开展复杂场景下文本目标检测和识别研究。分析了分段式的传统文本检测识别方法。针对现有技术用于小文本目标检测和识别时的不足,提出自然街景下的小文本目标优化方法。针对小文本标注数据较少、手动标记工作量大、效率低的问题,提出了一种半监督的学习算法。主要研究工作如下:1)研究了自然街景下的小文本目标优化方法。构建用于小文本目标检测和识别的三级训练数据集,并设计了一种由易到难的强化训练模型。提出了一种文本目标图像DCT系数合成法,用以合成前两级训练数据集。针对现有技术在处理小目标文本时的不足,提出基于分辨率补偿的小文本目标优化方法,并通过实验验证了优化方法的有效性。2)提出一种半监督的文本目标检测和识别算法。算法采用文本目标检测网络与识别网络并联的架构,并通过预处理与特征提取环节共用,确保文本目标的检测和识别可以共享特征:从而使得文本目标识别的结果不受文本目标检测框的影响。本文提出一种基于贝叶斯网络的文本目标检测识别方法来对样本进行特征提取和标签预测及筛选。通过与已有算法在多个公开测试集上的性能比较和评估,验证了本文算法的有效性以及应对小文本目标的优越性。