【摘 要】
:
由谷歌公司于2012年提出知识图谱(Knowledge Graph)概念后,这种知识表示形式引起学术界与工业界的强烈关注,研究学者们将它视作未来的搜索引擎。高质量知识图谱的构建是一个动态发展的过程,需要及时补充新知识来完善知识图谱,并校验更新图谱中的时效性知识。补充新知识可以采用面向网络文本的信息抽取技术,校验更新图谱中的时效性知识可以使用有关的属性值验证技术。但是传统技术难以适用于大多数构建知识
论文部分内容阅读
由谷歌公司于2012年提出知识图谱(Knowledge Graph)概念后,这种知识表示形式引起学术界与工业界的强烈关注,研究学者们将它视作未来的搜索引擎。高质量知识图谱的构建是一个动态发展的过程,需要及时补充新知识来完善知识图谱,并校验更新图谱中的时效性知识。补充新知识可以采用面向网络文本的信息抽取技术,校验更新图谱中的时效性知识可以使用有关的属性值验证技术。但是传统技术难以适用于大多数构建知识图谱的网络文本,导致构建高质量知识图谱仍然是一个难题。为了解决问题,本文研究了面向知识图谱的属性值抽取和属性值验证技术,主要研究工作如下:1、针对面向知识图谱的属性值抽取技术研究,本文提出了基于正则匹配度的属性值抽取技术,正则匹配度是指正则表达式与待提取属性值的文本匹配度,该研究技术能够从正则表达式集合中挑选出最适合用于某特定文本抽取属性值的正则表达式,进行精准抽取属性值信息。此外,对于“地名”或“机构名”类型属性值,提出了基于命名实体识别工具的属性值抽取技术,利用命名实体识别功能能够快捷地从文本种获取该类型属性值。通过对比实验分析,证实了本文提出的两项技术在属性值抽取工作中优于基于正则表达式集合抽取技术所取得的数据准确率。2、针对面向知识图谱的属性值验证技术研究,本文提出了基于混合人工验证的属性值验证模型,使用期望最大化算法挑选小部分特征丰富的数据进行人工准确验证。使用验证后的数据辅助训练高质量的真值评估器,最终提升模型对整体数据集的真实性验证的效果。对比实验结果表明,随着数据规模的增加,本文提出的验证技术要比已有的优质验证技术及其简化版本表现出更高的准确性,运行时间开销介于已有的优质验证技术和其简化版本之间。虽然研究技术相比于现有的高质量验证技术的简化版本运行时间稍有增加,但是由于研究技术比现有技术提升了验证准确率,所以时间代价的略微增长是可以接受的。3、基于本文研究的属性值抽取与验证技术,设计并实现了高质量知识图谱构建生成系统,并对系统的各个模块展开描述与测试。通过对搜索示例的界面展示,基本实现了系统设计的预期目标。
其他文献
本研究利用苯酚—氯仿—异戊醇—核糖核酸酶法,从3个品种豇豆幼嫩叶子中分离出总基因组DNA,参照已知的几种Bowman—Birk型胰蛋白酶抑制剂基因序列和ATG起始位点,设计合成了两段长度为27bp且5端含有BamHI位点的寡核苷酸引物。以总DNA为模板,进行PCR扩增,得到长度约为340bp的均一特异性扩增产物CPTI DNA片段。 将该片段克隆到质粒载体pGEM—3zf(+)的BamHI位
互联网技术的发展,催生了大量平台级的应用服务,如搜索、推荐、查询等。为了向用户提供更加精准、高效的服务,众多互联网平台分别构建了面向不同应用场景的知识图谱。知识图谱是一种组织结构良好、可解释性强的人工智能技术,能高效地组织并表示各种信息,因此得到了广泛的应用。但面向各不同网络应用的知识图谱通常是独立构建的,因此存在相同的信息表述不一致以及数据的更新时间不一致等问题。将不同时间的知识图谱中表述形式不
人们日益增长的物质需求与环境污染和能源短缺的问题相矛盾,目前可再生的清洁能源如风能、太阳能等也需要高效的储能装置。锂离子电池(LIBs)是目前能够商业化大规模应用的可循环使用的电池设备。在未来几十年将被普遍运用于各种电子移动设备和新能源汽车。然而稀缺的锂资源使人们将目光转移到钠离子电池(SIBs)研究上。由于离子半径等物理特性差异,传统正负极材料并不适用SIBs。二维层状MXene材料具有独特的物
随着互联网的日益普及,智能终端越来越依赖于网络来提供应用服务。然而,这种对网络的高度依赖,造成了在缺网、断网、网络环境差等极端场景下,智能终端无法提供有效的服务。此外,常见的交互技术存在控制方式机械、固定和单一,全局性和实时协同性差,智能程度较低,用户交互性和参与性较弱和个性化不足等问题,这在很大程度上影响了用户的体验。因此,本文针对现有感知和泛在交互技术存在的障碍和限制,设计和实现了一套适配多样
图像质量评估(Image Quality Assessment,IQA)是对失真图像的质量进行量化并输出与人眼视觉系统相一致的质量分数。无参考图像质量评估是无需参考图的前提下对各种失真图像建立感知模型,通过感知模型探索计算机与人眼视觉对图像质量理解的关系。无参考图像质量评估是图像处理领域的基础,它主要分为两大研究方向:(1)对图像的直接理解与感知,探索计算机视觉与人眼视觉的一致性;(2)利用质量信
随着通信和互联网技术的快速发展,使得无线通信技术面临着巨大的挑战。多跳中继无线网络是现代无线通信的一个重要传输形式,可以有效提高系统的传输质量和系统的覆盖范围。一方面,在没有部署基础设施的情况下,当通信双方的距离进一步增加时,如何提高通信双方的通信质量已经成为无线通信领域急需解决的关键问题。作为一类对抗衰落、提升系统的传输可靠性的有效技术,缓存辅助中继近年来引起了广泛关注。另一方面,随着无线技术的
当今世界,伴随着越来越多针对政府机构、工业设施、大型公司网络的攻击,网络安全已经成为全球研究人员的关注点。其中,高级持续威胁(Advanced Persistent Threat,APT)结合社会工程学、0day漏洞、隐蔽通信等技术手段对目标实行长周期、多阶段的攻击行为,凭借其极高的隐蔽性和威胁性,已经成为网络空间安全中的主要威胁之一。如何对APT组织进行溯源识别以及在早期发现APT攻击并发出警报
随着信息技术的飞速发展和计算机等信息设备的广泛应用,人类社会已经步入了信息时代。与此同时,随之伴生的网络安全问题也给国家安全和社会发展带来潜在的威胁和损失,如何在信息时代保障网络空间安全成为了学术界和工业界关注的重要问题。近年来,通过知识表示方法,将网络安全领域中漏洞、资产、攻击活动等关键要素模型化,并为网络安全的态势分析、应急处置等环节提供知识支撑,逐渐成为一种有效研究手段。特别随着以谷歌知识图
复杂化、规模化与分布式的网络攻击行为导致网络安全领域中的攻击事件特征提取面临着基础数据量大、特征动态变化、状态持续更新等挑战。以文本形式生成的攻击事件告警信息具有高维特点,加重了特征提取与事件分类的难度。传统特征提取与分类方法无法高效地处理上述数据。因此,必须研究自动且高效的攻击事件特征提取与分类方法,以应对规模性、动态性、高维性等特征带来的挑战。表示学习(Representation Learn
氟喹诺酮类抗生素是全球各国广泛使用的广谱抗菌剂,其中以氧氟沙星(OFX)和恩诺沙星(ENR)为典型代表。它们结构复杂、半衰期长、难生物降解,存在于各种环境介质中,在水环境中的浓度达到ng/L~mg/L级。长期残留的抗生素带来了威胁人类健康和生态环境的全球性问题,寻求高效环保的抗生素废水处理技术为大势所趋。生物修复技术是去除抗生素的有力工具之一,其通过增强生物降解能力有效提高污染物的去除率和降低对环