【摘 要】
:
视觉富文档是指语义结构不仅由文字的语义决定,还与文字布局和视觉特征有着重要关联的一类文档。随着深度学习的发展,光学字符识别(Optical Character Recognition,OCR)技术取得了飞速发展。与此同时,除了读取图片上的文字以外,理解文字背后的含义正成为工业界和学术界探索的课题。视觉信息抽取(Visual Information Extraction,VIE)任务正是一种从视觉富
【基金项目】
:
国家自然科学基金(项目编号:61936003); 广东省自然科学基金(项目编号:2017A030312006);
论文部分内容阅读
视觉富文档是指语义结构不仅由文字的语义决定,还与文字布局和视觉特征有着重要关联的一类文档。随着深度学习的发展,光学字符识别(Optical Character Recognition,OCR)技术取得了飞速发展。与此同时,除了读取图片上的文字以外,理解文字背后的含义正成为工业界和学术界探索的课题。视觉信息抽取(Visual Information Extraction,VIE)任务正是一种从视觉富文档中自动化地提取出重要的键值对信息的任务。本文详细介绍了VIE的发展历程,对比和分析了当今主流方法的优点和不足。虽然,现有的方法试图通过融合多模态特征来辅助模型确定实体属性,但却忽略了实体之间的关联性以及多模态特征之间的平衡建模,从而限制了模型的性能。因此,本文围绕VIE研究改进了现有的相关方法,主要研究工作和创新点总结如下:(1)针对现有基于序列标注或是节点分类的VIE方法难以有效区分数字类别或是多模态特征接近的命名实体区分问题,本文提出了一种基于命名实体匹配关联性的VIE方法(Match VIE)。该方法通过引入命名实体关联性评估分支,有效地绕开了独立区分每个命名实体的语义,只关注实体之间的匹配关系。此外,本文额外提出了数字向量(Number to Vector,Num2Vec)方法对位置特征进行编码以加快训练过程的收敛。实验表明,面对数字类别或是多模态特征接近的实体区分问题,本文提出的方法更加鲁棒。(2)针对现有基于文档预训练的VIE方法在视觉端监督任务设计欠缺而导致的不平衡模态交互问题,本文提出了一种基于视觉-语义双向交互的预训练模型(Bi-VLDoc)。Bi-VLDoc方法构建了三个全新的自监督任务,分别为文本-图像位置感知任务、区域性文本预测任务以及双向文本-图像对齐任务,旨在建立一种平衡的视觉-语义特征交互。相比于以往方法直接将输入的多模态特征简单地叠加,Bi-VLDoc方法提出的视觉-语义混合注意力机制实现了自适应权重的模态融合。实验表明,Bi-VLDoc方法可以在预训练阶段学到一种平衡式的模态融合机制,性能表现更加优越,能适配多种文档理解任务而具有较好泛化性。
其他文献
近年来,随着虚拟现实,增强现实等技术的发展,三维人脸纹理重建已成了计算机视觉领域的一个重要的话题。重建逼真的人脸纹理能大大增强虚拟化身的真实感和使用虚拟现实设备时的沉浸感,对于动画、游戏和电影工业都有着重要的意义。传统的求解三维人脸纹理参数的方法存在分辨率低,缺乏真实感等问题。基于生成模型的方法可以获得较好的结果,但需要通过采集大量的人脸纹理图作为训练标签。针对以上缺点,本文对单张图片输入的三维人
随着精准扶贫工作的稳步推进、小康社会的全面建成,2020年底我国贫困县全部摘帽,区域性整体贫困得到解决。在新的发展时期,乡村振兴战略成为促进三农发展、巩固脱贫攻坚成果的稳定抓手。2022年中央一号文件指出,坚决守住不发生规模性返贫底线,聚焦产业振兴促进乡村发展,不断强化政策保障和体制机制建设,完善监测帮扶和政策落实机制,扩大乡村振兴投入,加强人才队伍建设,三产融合助推动农业农村绿色发展,依托富民产
2022年中央一号文件指出要构建县域范围内比较优势明显、带动农业农村能力强、就业容量大的产业发展格局。2021年中央一号文件提出了“到2025年,农业生产结构和区域布局明显优化,农业质量效益和竞争力明显提升”的发展目标。《全国乡村产业发展规划(2020-2025年)》指出“要统筹农业产业产地、销区和园区布局,形成生产与加工、产品与市场、企业与农户协调发展的格局”。在宏观政策引导下,针对农业产业布局
2020年底,我国打赢脱贫攻坚战,历史性地解决了绝对贫困和区域性整体贫困问题,积累了新时代最成功的反贫困实践经验,但这并不意味着我国的反贫困道路已经完全走向成功,我国农村脱贫人口的返贫风险仍然存在,长期性、动态性、多维性的相对贫困问题日渐凸显。在乡村振兴阶段,不仅要不断巩固脱贫攻坚成果、防止发生规模性返贫,还要将反贫困工作的重点转向解决低收入人口的相对贫困问题,建立起反贫长效机制。本文系统梳理并分
作为中华文明的活化石,古籍文档珍稀而易损,数字化技术是古籍文档能够持久流传的重要举措。文本识别算法是古籍文档数字化的基石,它提取古籍文档图像的文本特征,转换为语义连贯的文本序列。但古籍文本存在样本类别长尾分布、类间特征重叠、版面样式多变、开源数据集稀缺等诸多难题,古籍文本识别算法的发展颇受羁绊。目前,现有古籍文本识别算法多基于单字符识别,但这或许割裂了字符间的语义关系,导致识别模型的推理预测能力薄
随着城镇化进程的快速推进,农村人口逐渐向第二、三产业转移,我国正面临着农业兼业化、农村空心化、农民老龄化的严峻挑战。谁来种地、如何种地的问题亟需解决。为解决这一问题,近年来我国不断加大专业大户、农民专业合作社、龙头企业以及家庭农场等新型经营主体的投入力度。其中家庭农场是以家庭承包为基础,更符合我国农业生产和家庭经营的特点,是现阶段最适宜的新型农业经营主体。然而我国家庭农场仍处于起步阶段,目前经营效
电磁吸波体是一种能够有效吸收电磁波的结构或材料,它能将电磁波能量转化为热能耗散掉。在表面覆盖电磁吸波体已经成为武器装备降低雷达散射截面积(RCS)的重要手段。随着电子对抗技术的发展,多功能电磁吸波体正在成为当前电磁领域的研究热门。本文基于电磁吸波体的基本理论,设计了两种频率选择吸波体,并研究了一种基于神经网络的纸基吸波材料电磁参数提取方法。本文的主要研究内容概括如下:1、双阻带双极化频率选择吸波体
自供给侧结构性改革战略实施以来,山西省不遗余力地进行产业转型,大力推进农业产业化,扶持龙头企业发展壮大,时至今日,已取得不少成就。然而,对于这些龙头企业发展状况如何、在地理上呈现怎样的分布特征并反映出山西省农业产业化到底处在一个怎样的发展阶段以及哪些因素影响着龙头企业的分布等问题,尚没有完整的针对性研究对其一一进行回答。为了解决以上问题,本研究以山西省省级农业产业化龙头企业为研究对象,利用核密度估
自古以来,土地不仅是宝贵的自然资源,还是人民财富之母,因此将土地和土地政策置于中国农业、农村和农民问题的解决当中,置于国家战略进程中具有其他政策不可替代的深远影响和作用,其中农地流转政策的实施可有效提高土地分配效率和农业生产效率。因此深入探究欠发达地区的农地流转情况对于农地流转政策实施、巩固脱贫成效具有重要意义。本研究以山西省陵川县为例,基于相关文献阅读,运用问卷调查与访谈法相结合进行实地调研,了