【摘 要】
:
为了帮助像考古学家、历史学家、网络审查员这类人从文档中快速查找感兴趣的内容,使用深度学习等技术对文档(如手写历史文档)进行快速、实时、精确的关键字定位是相关人员所迫切需求的,其在历史文献查阅、视觉搜索、图像检索领域具有广泛的应用价值。然而由于手写历史文档图像数据集标注困难且费时费力,使得训练数据严重缺乏不足以满足深度学习模型训练的需求。此外,手写历史文档图像具有多样的写作风格、多变的视觉外观、不均
论文部分内容阅读
为了帮助像考古学家、历史学家、网络审查员这类人从文档中快速查找感兴趣的内容,使用深度学习等技术对文档(如手写历史文档)进行快速、实时、精确的关键字定位是相关人员所迫切需求的,其在历史文献查阅、视觉搜索、图像检索领域具有广泛的应用价值。然而由于手写历史文档图像数据集标注困难且费时费力,使得训练数据严重缺乏不足以满足深度学习模型训练的需求。此外,手写历史文档图像具有多样的写作风格、多变的视觉外观、不均衡的背景等挑战以及单词密集、词间笔画重叠的特殊性质,会严重影响深度学习算法的定位与匹配性能。因此,本文针对手写历史文档图像数据集规模过小、不同尺寸单词目标定位精确度低、多阶段方法处理过程复杂的问题进行研究。本文从提升模型的定位能力和匹配能力两个角度出发,提出了两种端到端单阶段的无分割QbS(Query-by-String)关键字定位研究路线,基于多任务学习机制,通过统一的网络结构同时完成单词定位与单词匹配任务,以期待能够达到较优的检索性能。本文的主要贡献和创新点概括如下:(1)提出了基于直接回归的无分割QbS关键字定位方法。该方法主要是从数据、网络结构和损失函数三方面共同出发来提升模型的定位能力和匹配能力。在数据方面,采用了 IPA(In-place augmentation)与 FPA(Full-page augmentation)两种数据增广方式来弥补训练数据严重缺乏的问题;在网络结构方面,使用了主流的残差网络作为主干网络并结合金字塔形式的网络结构来增强模型的特征提取能力,提出了多尺度特征融合策略来提升不同大小单词目标的预测能力;在损失函数方面,针对各个任务,采用了适应此场景的损失函数以及设计了加权损失函数同时应对文档图像单词密集、词间笔画重叠的挑战。最后,在三个公开数据集上分别进行了对比实验、消融实验和鲁棒性实验,实验结果验证了所提出方法的有效性以及各个模块选取策略的最优性。(2)提出了基于注意力机制的无分割QbS关键字定位方法。该方法主要是设计了空间注意力机制与尺度注意力机制,来引导模型聚焦于具有更多单词信息的区域。其中,空间注意力机制帮助模型处理具有多样写作风格、多变视觉外观的单词区域,进而提升网络对不同区域的判别能力;尺度注意力机制帮助模型处理具有多种尺寸的单词目标。最后,通过对比实验与消融实验验证了模型的优良检索性能。(3)开发了基于WEB平台与Windows客户端的关键字定位软件原型,以此来可视化展示关键字定位的检索结果并帮助人们直观理解关键字定位的具体任务。
其他文献
运用基于心流理论的交互界面研究方法,针对骨折复健类应用程序的用户心流体验,以典型骨折复健类型——胫腓骨骨折复健为例,进行界面设计,以及完成配套智能可穿戴硬件的设计。通过对用户特征及其心流体验要素的分析,确立研究路线的可行性,梳理完整的用户体验交互流程,探讨用户的心流体验预期及达成心流体验的路径,得出符合目标界面效果的设计结论。在用户调研中,通过对其痛点的剖析,对用户骨折复健全流程的真实情况进行分类
基于深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的算法在计算机视觉领域拥有至关重要的地位,相比与传统算法,其针对图像分类、目标检测、实例分割等任务均具有更高的准确率,成为近年来学术和工业界的主要研究方向。然而,由于DCNN固有的高计算负载、高参数量的属性,针对功耗、存储限制较为严苛的场景,实现高吞吐率、低延时的推理运算仍然面临诸多挑战。本论文提出
行人重识别(Person Re-Identification,简称Re ID),是计算机视觉领域的热点研究方向,主要解决跨摄像头跨场景下行人的识别与检索,具有重要的研究意义和广泛的应用前景。该技术亦可作为人脸识别技术的重要补充,对无法获取清晰人脸的行人进行跨摄像头连续跟踪。本文以人体关节姿态的图表示为辅助特征,联合深度学习和图推理,重点研究并解决行人重识别特征提取不充分、小尺度行人识别精度低和关键
支持矩阵机作为支持向量机的推广,是人工智能中的重要技术,被广泛的应用在分类和预测的问题中,如文本分类、图像识别、医疗诊断等等.这些实际问题中的数据天然是矩阵形式,其结构特征提供了数据的重要信息,因而以矩阵为变量的支持矩阵机问题的研究至关重要.支持矩阵机模型很好的考虑到了矩阵数据内部具有的相关性,其研究的主要困难在于目标函数中秩函数、0/1损失函数的非凸非连续性.目前已有的研究集中在矩阵数据的向量化
随着短视频、直播、云会议等对实时性要求较高的应用不断涌现,最小化延迟成为网络研究的方向和目标。主动队列管理对于改善网络拥塞、控制数据流延迟有着重要作用。然而传统网络的转发设备受硬件限制不支持用户自定义队列管理算法,但随着可编程网络等新型网络架构的出现,在数据平面通过编程接口管理网络节点上的资源(存储器、处理器和分组队列等)得以实现,主动队列管理技术得到进一步的发展,研究数据平面的队列管理对于改善网
目前,医药流通行业受到国家医药改革相关政策的影响,面临着在医药终端下单至送货到位的有限时间内,医药物流中心如何完成大量拆零订单的拣选作业,即如何提高拣选效率的困境。通过在实际中的应用,基于搬运机器人的“货到人”拣选系统已被证明是解决拆零拣选困境的重要手段之一。本文主要针对基于搬运机器人的“货到人”拣选系统中的订单问题进行研究,主要研究内容如下:首先针对基于搬运机器人的“货到人”拣选系统中,搬运通道
随着计算机视觉的不断进步,视觉伺服技术被引入机械臂控制领域,成为机械臂控制领域研究的核心内容之一。机械臂在工作过程中通过摄像机获得图像信息,使得操作系统更加灵活,因此,机械臂视觉伺服控制系统具有非常重要的研究价值。本文以六自由度机械臂视觉伺服系统这种结构复杂的多入多出系统为研究对象,针对视觉模型参数和摄像机内部参数未知的问题,以多入多出紧格式无模型自适应控制算法为基础,对机械臂视觉伺服系统进行了研
移动机器人作为帮助人类拓展认知范围的一类重要辅助工具,在人们的生产生活中占有越来越重要的地位。多面体机器人是一种由空间多环闭链连杆机构构成的多面体形态机构。针对地面移动机器人运动的高地形适应性需求,本论文对四面体移动机构面对台阶障碍的越障过程进行了分析,提出两种越障步态,并对其展开理论分析与样机实验。首先,对四面体移动机构支链进行构型设计,根据构型设计对其进行自由度分析,并提出基于对称驱动的滚动步
随着城市人口不断增加,公共交通压力与日俱增,传统公共交通方式已经制约了运输效率的提升。现代无轨列车是一种新型的城市交通运输工具,是对现有交通运输方式的补充,既具有公路汽车运行灵活、基建成本低的优点,又具有城轨列车载运量大、编组灵活的特点,是城市交通运输未来发展趋势。现代无轨列车的各节车体通过液压铰接机构连接,具备多轴转向的功能,可以提高车辆复杂工况下的运行灵活性。但是与单体客车、单铰接客车相比,多
在移动互联网时代,爆炸式增长的在线内容使得人们深受信息过载问题的困扰。作为缓解信息过载的利器,推荐系统能够从用户-项目历史交互中挖掘用户的个性化偏好,以过滤掉用户不感兴趣的内容。众所周知,传统推荐模型通常面临着数据稀疏和冷启动等问题,因而近年来越来越多的研究关注于融合社交网络等辅助信息来对用户兴趣进行充分建模,以改进现有推荐算法。然而,本文通过研究发现,现有社交推荐算法还存在以下问题:社交域对用户