【摘 要】
:
随着计算机技术的发展以及智能手机与电子阅读设备的逐渐普及,电子文档已成为人们主要获取信息的方式之一。大部分印刷体文档是以图片形式进行存储的。得益于光学字符识别技
论文部分内容阅读
随着计算机技术的发展以及智能手机与电子阅读设备的逐渐普及,电子文档已成为人们主要获取信息的方式之一。大部分印刷体文档是以图片形式进行存储的。得益于光学字符识别技术的发展,人们可以直接从图像中提取需要的数据进行存储、处理和检索,减轻人手工录入负担。然而,文档中还存在着大量框图类图像,现有的OCR技术难以直接提取其表达信息。目前,常规的印刷体框图识别方案主要采用传统方法通过检测框图的轮廓、角点,再依赖人工定义的特征进行特征提取,对框图中的关键区域进行定位。但实际中框图种类繁多,情况可能十分复杂,可能会存在断边、粘连或其他线元干扰等问题,这些情况都是传统方法难以处理的。框图还具有复杂的二维结构,识别中还得考虑图元之间的连接关系。如何正确解析框图的结构关系也是该领域面临的难点。本文通过分析研究框图识别中几个重要问题:框图的关键区域检测,框图内的字符切分与识别,框图的结构识别,将数字图像处理以及深度学习的相关技术应用到框图识别中,最终完成本文的框图识别技术研究。主要阐述了如何对收集到的数据集进行标注以及数据增强,降噪等过程,使用基于YOLOv3深度学习目标检测算法对框图图像的关键区域进行检测,解决了传统方法难以提取框图特征,方法通用性差的问题。在原有YOLOv3网络基础上,对其多尺度策略进行改进,加强对多种尺度以及箭头小目标的识别率,更好地应用于框图图像的目标检测中。鉴于印刷体框图图像内的字符字体格式较为固定,本文主要利用切分的方法对字符进行分割,对其中粘连字符的问题提出了解决方案。字符识别方面,本文以Le Net-5卷积神经网络为基础,对网络结构进行优化,得到了一个识别精度高的字符识别模型。在框图结构方面,本文主要根据框图区域检测的结果,分析了箭头与图元、连接线的空间位置关系,建立了框图结构识别的规则,在该规则约束下,对图元的逻辑关系进行判定,可以有效识别框图结构信息。最后,对框图的字符与结构识别结果整合并进行表示。
其他文献
目的:探讨Ghrelin调控GSK-3 β/β-catenin信号通路介导的神经病理性疼痛的机制。方法:采用随机数字表法将雄性Sprague Dawley大鼠随机分为正常对照组(naive control group,N 组)、假手术组(sham operation group,S 组)、CCI 组(Chronic constriction injury by loose ligation of
图像拼接技术因其能够把多张图像拼接融合形成一张新的图像,已经成为数字图像处理领域一个越来越受欢迎的的研究热点之一,它应用的范围包括虚拟现实技术、人工智能识别、无人
研究背景:超声引导下射频消融(Radiofrequency ablation,RFA)由于其微创、安全、可近期多次重复治疗等优点,已成为<3cm肝癌的主要治疗方法之一,随着肝癌直径增大,射频消融术后肿瘤完全消融坏死率下降明显,而消融不完全是术后复发的危险因素之一,因此,射频消融多被局限于治疗肿瘤直径<5cm的肝癌患者。Goldberg1996年发现,肿瘤内部及周边丰富的血流灌注可快速带
计算机多媒体技术的发展为人类社会带来了诸多机遇,同时也给社会安全带来了挑战。数字视频作为生活中常用的网络媒介,在用于娱乐的同时也面临着被修改的风险,有些修改出于恶
随着物联网(Internet of Things,Io T)的快速发展,射频识别(Radio Frequency Iden-tification,RFID)技术作为物联网的关键技术受到越来越广泛的关注,成为科研工作者的研究热
多变量时间序列(MTS:multivariate time series)分类是根据已知MTS提取特征或者训练模型将未知的MTS标记上已知标签的过程,该工作是当前数据挖掘和模式识别领域最具挑战性的
图像分类是机器学习和模式识别领域中一个十分重要的研究热点,其目的是基于标签已知且完整的图像数据集训练一个分类器,并对新样本的标签进行预测和分类。传统的图像分类问题
由于混沌系统的同步在保密通信、人体生命科学、林草动力学等方面有着广泛的应用前景,因此混沌系统的同步控制受到了越来越多学者的关注和研究。大多数的文献将混沌系统的同
背景&目的结直肠癌是一种常见的全球多发的死亡率高的恶性肿瘤,结直肠癌患者死亡率高的主要原因是难以控制的复发和转移。该肿瘤的发病率呈逐年增加的趋势,其高致残率及致死率给政府带来沉重的医疗和经济负担,而生物学标志物的鉴定有望辅助预测高复发风险的人群,从而实现早期诊断和进一步治疗。新合成的蛋白质在粗面内质网中进行组装合成,进一步运输到高尔基体进行糖基化修饰。上皮组织黏蛋白主要分为分泌型黏蛋白和膜
柔体机器人是由柔性材料构成的一类新型仿生机器人,理论上具有无限的自由度,结构复杂,理论分析困难。本文结合了分析力学和弹性力学的方法研究了柔体机器人系统的基本理论及N