面向网络公开信息的人物关系图谱构建关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:shuijing0328
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,网络空间的数据资源越来越丰富,其数据量已经远远超出了传统数据分析技术和信息系统的处理能力,寻求海量数据中的有效的信息已成为各领域的迫切需求。知识图谱以其语义网的本质,将客观世界存在的实体、关系、属性等概念以结构化知识的形式连接成庞大的网络,作为人类描述知识的重要载体,为大数据环境下的信息获取提供了便捷快速的解决方法。其中,人物实体作为信息交互的枢纽,往往在寻找目标知识的过程中起着十分关键的作用。因此,以人物实体为中心,构建人物关系知识图谱对于信息检索、情报分析、商业营销等领域都有着重要意义。然而,一方面网络信息的海量性和不规范性对信息的获取造成了极大的困难,另一方面互联网的开放多样性也给不同数据来源的知识整合和清理带来了挑战。本文从人物关系图谱构建中信息抽取和知识融合两个关键方面进行了研究。首先针对规模庞大的非结构化网络文本信息,采用关系抽取和属性抽取的信息抽取技术从中获取结构化的知识;然后针对互联网多源知识中存在的冗余和歧义问题,采用实体链接和人名消歧技术进行知识融合的相关处理。主要研究成果如下:(1)在关系抽取方面,针对大数据环境下标注数据难以获得且成本高昂的问题,提出了一个面向中文新闻语料采用远程监督技术自动生成弱标签训练数据的人物关系抽取模型。首先使用远程监督的思想通过对齐知识库与语料库中的文本来自动产生弱标签数据。其次,针对弱标签中的噪声数据,提出了基于TF-IDF的关系指示词过滤算法进行去噪处理。最后,分别以词语和句子为对象提取相关词法特征和句法特征,从而将训练语料文本映射为对应的多因子关系特征向量以进行关系分类器的训练。实验表明,本文提出的人物关系抽取模型性能表现超过了其他同类型的方法,并且展示了良好的扩展性,尤其不需要标注语料的特点使其具有重要的实用价值。(2)在属性抽取方面,以往的研究表明,文本中的属性特征表示的准确性将直接影响着属性抽取的结果。针对这一关键问题,从学习更具判别力的属性特征表示出发,提出了一个基于Siamese网络的人物实体属性抽取模型。该模型由两个子网络构成。首先,通过采用Siamese网络结构的双输入属性编码器,实现对目标句子和并列句子之间的相似性约束来学习得到更精确的属性向量。然后,属性预测器使用这些属性向量训练得到一个属性分类器以达到抽取属性信息的目的。实验结果表明,相较于传统的序列输入模型,成对输入使模型得以直观地进行特征比较,从而更准确地归纳和学习判别属性的相关特征,达到了当前目前属性抽取模型的最先进水平。(3)在实体链接方面,已有的研究中无论是人工设计特征的语义表征方法还是构建词向量模型的语义嵌入方法,都需要大量的人力和计算资源。针对该情况,本文提出了一个基于BERT消除语义歧义的深层实体链接模型。该模型首先通过微调BERT模型来获取实体指称项和实体在同一语义空间下的向量表示。并且根据真实数据情况,在训练过程中通过困难负样本挖掘策略来促使模型学习到更深层的语义信息而不仅仅关注字符串的相似性。然后,利用已有的公开信息生成实体指称项的候选实体列表。最后使用基于多层感知机的实体消歧网络从候选实体列表中选出实体指称项的对应实体。通过在知名的实体链接标准数据集Co NLL 2003和TAC 2010上进行实验,结果表明本模型实现了实体链接当前的最优结果。(4)在人名消歧方面,已有的研究方法大都采用人工设计特征来表征人名指称项,并且在聚类算法上往往需要根据训练数据预定义聚类个数。针对该不足,本文提出了一个基于非负矩阵分解的深度人名消歧模型。首先,通过triplet loss函数对预训练语言模型BERT进行调优,以得到人名指称项的语义表示向量。然后,提出了一个基于非负矩阵分解的聚类算法对学习得到的人名指称项进行聚类区分,以达到人名消歧的目的,该方法不需要事先定义聚类个数,相较现有的方法具有更大的实用价值。在标准竞赛数据集We PS-1、We PS-2上的结果证明了本模型的有效性,并明显优于其他相关模型。
其他文献
随着计算机网络和多媒体技术的迅速发展,数字图像变得更容易获取、传输和修改。数字图像安全随即引起了人们的广泛关注,针对军事布防图纸、产品设计图纸及个人敏感图像等重要秘密图像信息的保护变得尤其重要。相比于图像加密和信息隐藏,秘密分享技术具有无条件安全、权限控制、丢失容忍和解密简单等特性。在图像安全保护领域有不少研究者对秘密图像分享技术进行了深入的研究,并产生了广泛的应用。针对秘密图像分享的相关理论研究
导弹防御系统对维护国家和地区安全意义重大。对导弹目标的快速检测和准确识别是导弹拦截的基础和前提,同时也是现代导弹防御系统面临的最大技术挑战。本文主要围绕基于红外探测的导弹目标检测和真假弹头目标识别两个问题展开研究,具体研究内容包括:(1)针对天基预警系统在复杂背景下的红外点目标检测问题,改进了一种新的星地联合目标检测体制。该体制下,星上信息处理系统完成基于单帧图像的点目标检测和基于单帧图像的复杂背
时空轨迹的相似度计算将轨迹间相似特征进行了量化,是上游相似查询和分析应用的基础,有效而稳定的相似性度量及其高效计算方法也是众多轨迹模式挖掘的必要前提。当前数据量爆炸式增长、数据形式愈发多样、时空语义信息更加丰富的轨迹数据现状对相似性分析和相似模式挖掘提出了更高要求,而传统研究一般将轨迹视作由点序列构成的线状对象,本质上仍是基于分立的空间点的计算与分析,不能有效把握轨迹数据时序性、多粒度性、位置不确
关联成像(Correlated Imaging)又叫鬼成像(Ghost Imaging),利用光场的二阶乃至高阶关联性质,间接重构出目标,是一种间接成像技术。不同于传统光学成像技术可以利用面阵探测器直接获取目标的图像,关联成像需要通过特定的重构算法计算出目标图像。在关联成像中,照明光被分为两路:信号光照射目标后被无空间分辨力的单像素探测器探测,参考光经自由传播后被面阵探测器探测,任一路都无法单独成
关联成像是一种基于光场高阶相干获取目标信息的成像技术。和传统成像相比,关联成像在诸多方面具有优势。首先,关联成像可实现无透镜成像,在一些透镜难以加工的波段内,如X光,关联成像可更容易地获取物体图像。其次,在关联成像系统中可以用点探测器获取二维或三维物体的图像,和普通的面阵探测器相比,点探测器灵敏度高,这使得关联成像可以在极弱光条件下成像。此外,点探测器读写速度快,也使得关联成像系统可以高速采集数据
多波段光电载荷融合成像具有几何和物理特性共同识别的功能,可有效提升目标识别率和识别效率,在光电成像技术领域发挥着不可替代的作用。传统多波段光电载荷一般选用多镜头分立组合的光学结构,存在系统体积大、图像实时处理能力弱等问题,难以满足对新型光电载荷集成化和灵巧化的需求。伴随着超精密加工技术的发展,多面共体光学元件的形、位高精度加工成为可能,光线可以在不同光学面间多次反射,形成折叠式光学成像系统,并有望
随着装备的快速发展、实战化的使用要求和保障模式的变革,对装备测试诊断提出了更高的要求和更大的挑战,测试模式的变革势在必需,装备测试性工程正是顺应这一变革的产物。当前,一般工程意义上的测试性设计已趋于完善,但针对复杂系统的测试性设计仍存在一些认识上的偏差和未解决的技术流程与关键技术问题,无法满足工程实践需要,如测试性设计中未考虑集成故障和系统级测试,系统级故障诊断隔离难等,为此本文在部委级预研项目的
以癌症为代表的复杂疾病严重威胁人类的生命健康,其形成包含复杂的分子间相互作用和调控过程。以患者临床表现出来的少数几种特征对疾病进行划分,然后对每一类辅以特定的治疗手段往往会在不同个体上有不同的反应,治疗效果难以预测。复杂疾病往往是由遗传因素、环境因素、生活习惯等多种因素之间相互作用导致的,并不遵循孟德尔遗传定律,因而家族病史和遗传相关信息只能说明个体存在患病的概率,但并不意味着就一定会患病,这些都
量子计算作为一种利用量子力学基本原理来完成计算任务的新兴技术,具有经典计算无法比拟的强大计算能力,一经提出就获得广泛关注。尤其在大数质因子分解与Grover搜索等量子算法提出之后,人们更加深刻的认识到量子计算或将为整个信息处理领域的演进与发展带来强劲动力。最近,许多国家颁布了关于量子计算研究的中长期发展规划,不断为该领域的技术实现与应用探索加码提速。作为一项应用广泛的信息技术,数据挖掘旨在从海量数
城市计算是计算机科学以城市为背景,跟城市规划、交通、能源、环境、经济和社会学融合的新兴交叉领域。城市计算的任务,是首先通过感知、获取城市中产生的各类大数据,然后采用高效的数据管理技术、先进的算法以及新颖的可视化技术来分析处理及展示大数据,用以解决城市中存在的诸多问题和挑战,如交通拥堵、空气污染、规划落后等。城市内产生的大数据多种多样,如人或车移动时产生的轨迹数据、各大媒体平台发布的新闻、股市里时刻