自然场景中的文本检测研究

被引量 : 5次 | 上传用户:zhangzujin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景中的文本信息提取是计算机视觉领域中一个非常重要且具有挑战性的难题,在图像视频检索、助盲翻译系统、智能交通领域中有着广泛的应用前景,因此越来越受到各大公司和研究人员的极大关注。自然场景中的文本信息提取包括文本区域的检测、分割和识别。文本检测作为文本信息提取的第一步,它检测的准确性对后续的分割和识别具有重要的意义。另一方面由于深度学习已经成功应用在图像分类等领域,因此本文在深度学习的框架下对文本检测进行研究,提出了基于卷积神经网络的有监督文本检测方法和基于自动编码器的无监督文本检测方法,提高了文本检测的准确率。本文的主要工作如下:(1)设计了可以方便地生成训练测试数据集的半自动的文本标注工具并使用该工具创建了一个文本检测基准训练测试数据集。由于深度学习框架采用多层网络模型,需要大量的输入作为训练集,现有的文本检测训练集还不能满足要求,且使用不便。为此,本文设计了一个可以方便地生成训练数据集的半自动的文本标注工具并使用该工具创建了一个文本检测基准训练测试数据集,本数据集取部分ICDAR2003和SVT数据集,共计4127张图像,利用本工具获得60000个正样本图像块,71733个负样本图像块用于训练,10000个图像块用于测试,从而大大缩短了实验周期,为不同算法的性能评测提供了基础数据。(2)提出了一种基于卷积神经网络有监督特征学习方法对自然场景中的文本进行检测。CNN(卷积神经网络)是一种多层感知器,这种网络结构对平移、比例缩放、倾斜或者其它形式的变形具有高度不变性,从而提高了文本检测的准确率,在实验测试数据集上获得了93.56%的分类准确率。(3)提出了一种基于稀疏自动编码器的无监督学习方法检测自然场景中的文本。该方法以重构误差最小为代价进行数据的特征学习,并在自动编码器的基础上加入稀疏性约束限制,从而获取更加有效的特征表示。该方法在我们的实验测试数据集上获得了92.85%的分类准确率。(4)通过对无监督特征学习算法和有监督特征学习算法两种方法的实验结果进行分析,可以得出如下结论:基于CNN有监督特征学习的文本检测分类效果,略优于基于SAE(Sparse AutoEncoder)无监督特征学习的文本检测,但可能是由于SAE加入了稀疏性约束的原因,在速度上要比CNN快,另一方面由于SAE采用的是无标签数据,因此具有很大的提升空间。
其他文献
主体功能区规划中的重点生态功能区,是指生态系统十分重要,关系全国或较大范围区域的生态安全,目前生态系统有所退化,需要在国土空间开发中限制进行大规模高强度工业化城镇化
介绍了乙二醇生产工艺路线,对国内外乙二醇生产、市场概况及发展前景进行了分析,并对乙二醇产业的发展提出了建议。
他汀类药物作为胆固醇合成早期阶段的竞争性抑制剂,抑制3-羟基-3-甲基戊二酰辅酶A(3-hydroxy-3-methyl glutaryl coenzyme A reductase,HMG-CoA)还原酶的活性,使HMG-CoA向甲
内部审计是社会经济发展的产物,是企业管理的重要组成部分,是企业管理水平提升的有力工具,也是企业利益的保护者。随着社会和经济的不断发展,传统的以账项基础审计和制度基础
加氢裂化技术的进步促进了炼油技术的发展,加氨裂化催化剂是加氢裂化技术发展的关键。本文慨括了加氢裂化及加氢裂化催化剂特点.重点概括了国内外各公司加氢裂化催化剂的发展
<正> 十九世纪八十年代,当中国边疆危机日益严重,西方列强和新兴日本加紧侵略其东部邻国的时候,出现了一个积弱的老大帝国与朝鲜李氏王朝的封建“宗藩关系”不断加强的趋势,
随着技术进步与社会发展,工业自动化程度和系统集成越来越高,对现实生产中的设备和系统提出了更高的要求,尤其在煤炭行业及煤炭销售领域中,原有的传统煤炭生产线上的大多计量设备
现阶段,加拿大已建立起广覆盖、高水平、多元参与、高效率与可持续性强的社会保障体系,但这一体系仍存在缴费率偏高、运营社会成本较高和公共部门与私人部门差距过大等问题,
本文通过对20年(1989~2008)来国内外影视旅游文献资料的梳理,发现学界对影视旅游的研究主要集中在影视旅游的形成因素、功能、开发模式、营销、存在问题及对策等方面。对影视
通过正交试验,研究了水泥用量、粉煤灰用量、体积砂率等因素对高强高性能轻集料混凝土的强度、密度和工作性的影响规律.给出了利用700级海泥陶粒制备高强高性能轻集料混凝土