【摘 要】
:
大数据蕴含有海量信息,地理文本大数据是大数据的重要组成部分,也是构建地理知识图谱的重要数据,但是这些数据中含有大量无用信息,如何从这些数据中过滤出有价值的数据是人们亟需解决的问题。地理知识图谱能够帮助学者们解决这一问题,而实体关系抽取是构建知识图谱的重要任务之一。实体关系抽取大多是运用深度学习的方法完成,但是地理领域的标注语料库非常稀缺,人工标注数据又费时费力,导致难以使用有监督的方法进行抽取,并
论文部分内容阅读
大数据蕴含有海量信息,地理文本大数据是大数据的重要组成部分,也是构建地理知识图谱的重要数据,但是这些数据中含有大量无用信息,如何从这些数据中过滤出有价值的数据是人们亟需解决的问题。地理知识图谱能够帮助学者们解决这一问题,而实体关系抽取是构建知识图谱的重要任务之一。实体关系抽取大多是运用深度学习的方法完成,但是地理领域的标注语料库非常稀缺,人工标注数据又费时费力,导致难以使用有监督的方法进行抽取,并且无监督的抽取方法效果较差,所以目前的研究大多使用基于远程监督的实体关系抽取方法,该方法能够通过小量知识库与大规模语料库对齐获取大量标注数据,然后利用算法对数据进行去噪处理,最后进行实体关系抽取。这种方法不仅可以减少标注语料的工作量,抽取效果也比无监督的方法好很多,但是目前并没有高质量的地理文本语料库可以使用,所以本文首先构建了一个地理文本标注语料库,然后利用本文改进的模型进行实体关系抽取,最后将本文的改进模型进行实际应用。本文的主要研究内容分为以下几个部分:(1)针对目前缺少专业的地理标注语料库这一问题,本文首先利用百度百科的结构化知识构建地理知识库,使用百度百科与新闻网页上的非结构文本大数据构成语料库,两者对齐得到地理文本的标注语料。其次在目前的远程监督语料标注算法效果不佳的前提下提出基于特征评估和关键词相似度分析的语料标注算法,该算法首先会计算出文本中关键词的词性、与实体的相对位置和距离等特征的权重,结合这三者的权重得到文本中关系词的权重,再结合关键词相似度分析,得到标注语料。最后在本文构建的地理文本语料库上进行实验,结果表明相较于其它几个算法,本文的语料标注算法在准确率和召回率都有一定提升;(2)针对目前大多数远程监督关系抽取模型都是在包或句子的层面对数据进行降噪,忽略了噪声标签对模型性能的影响这一问题,本文将目光集中于标签级别的降噪,针对目前主流的远程监督关系抽取模型常常忽略实体对类型信息与句子语法信息对关系抽取的积极作用这一问题,本文基于Bi LSTM模型,首先在Bi LSTM中加入实体周围词注意力机制层,作为句子编码的第一个模块,其次在前者的基础上加入实体类型嵌入模块,以实体类型丰富句子编码信息,最后将依存句法树模块作为第三个模块纳入模型,三个模块共同组成本文的关系抽取器。再结合强化学习方法,设计一个标签学习器学习句子软标签用以纠正错误标签。标签学习器与关系抽取器共同构成本文提出的深度强化学习模型。在公共数据集ACE2005、Chinese-Literature-NER-RE-Dataset和本文构建的数据集上进行实验,结果表明本文的远程监督实体关系抽取模型在精度和召回率上要优于目前主流的几个模型。(3)将本文模型进行实际应用,设计并实现了关于地质灾害的自动问答系统,此系统的数据部分由本文第三章中采集到的新闻等网页信息组成,算法部分由第四章改进的远程监督关系抽取模型以及问答对匹配部分组成,在一定程度上缓解了专业领域问答资源稀缺的问题。
其他文献
基于匿名通信机制的网络通过对用户身份信息和通信关系进行隐藏,可以给用户提供一个信息安全的网络环境。但是,匿名网络提供的身份匿名性可以帮助犯罪分子进行违法犯罪活动,同时给网络空间安全管理带来了极大的麻烦。因此,对匿名网络流量和正常流量进行识别分类对网络空间的监管具有积极意义。本文使用不同的深度学习技术对匿名网络流量分类进行了研究,根据对匿名网络流量进行特征学习的思路不同,总共提出了三种分类方法,分别
新时代科技的发展尤其是互联网技术的普及使得教育教学的方式和环境都产生了翻天覆地的变化,其主要表现为知识传播形式的革新和信息量的暴增,网络教学系统层出不穷。截至目前,网络教学系统多采用基础B/S架构。然而由于依托于浏览器,这些系统难以针对用户特点和习惯实现个性化功能,只能以统一、公用的平台进行教育教学;另一方面,B/S架构的网络教学系统对课程运营者服务端有较高的性能要求,其开销也极大地限制了网络教学
随着近年来我国创新驱动发展战略的实施,航空航天作为国家的重点产业也在飞速发展着。复合材料在航空航天行业的生产中起着无可替代的作用,现有的复合材料管理方式以纸质材料和电子表格为主,这种方式不仅无法使材料管理人员实时掌握材料状态和用量,而且极易造成材料的浪费与报废,尤其是对于复合材料中的易变质材料。现代先进航天器与大飞机的生产对这部分易变质材料的管理提出了更高的要求,因此有必要探索新的管理方式。本文对
设计更改是设计单位根据客户、工程需要或者修订发现错误时对原设计文件进行调整,是制造企业科研生产经营活动中一项非常常见和重要的工作。随着企业不断发展壮大,数字化制造等技术的不断应用,产品创新和改善的频次越来越高,同时客户化定制、敏捷制造的流行,传统的纸质管理方式已越来越无法跟上转变的步伐,使公司在管理设计更改时浪费大量的人力物力。不少企业已建立起以PDM、ERP和MES等系统为基础的先进数字化管理体
为了满足航空数控产品高质量的要求,国外洛·马、波音、空客等行业巨头已开发集成的质量管理系统并投入现场使用,这些行业巨头借助于设计系统、制造资源系统、财务系统等,开展了全面的质量信息化管理。而目前在公司内部,作为质量控制的重要环节,质量数据统计、上报仍然依赖传统单机Excel的形式,检验数据离散的分布在生产制造流程的各个环节,部分记录仍以纸质载体为主,且最终统计结果数据存储于统计人员的本机上,无法与
中国电信某省分公司CRM系统为千万数量级用户提供了电信通信商品销售、售后、自助受理等信息化服务。随着移动互联网、手机及宽带业务发展,CRM系统应用的功能越来越丰富,业务的逻辑规则也越来越复杂。为了更加有效地解决业务高峰期服务响应缓慢、数据库连接数量激增等问题,CRM系统开始向着基于分布式服务的互联网架构进行转型。随着CRM 3.0的“云+平台+应用”的架构改造工作开展,系统原有的数据交互方式也不再
近年来,计算机视觉领域受到越来越广泛的关注。图像作为人类沟通的重要媒介之一,在现实世界中具有许多重要的应用场景,如图像识别、图像生成、图像翻译等等。其中,图像翻译为该领域的研究热点。类似于语言翻译,图像翻译是指将图像从一个域的特征转换为另一个域的特征。随着近几年深度学习技术的发展,图像翻译领域的研究除了起初的图像风格迁移、黑白照转换、图像超分辨率提高、人脸动漫化以外,还包括图像实例级转换。虽然现有
本文以中英文文本及数学表达式混合的扫描或拍照图像作为研究对象,提出了一个高效的印刷体文本公式混合识别算法,并设计和实现了一个相应的系统。主要研究内容如下:1.融合目标检测及传统方法的题块结构分析算法。对题块图像做预处理,并融合目标检测技术及传统图像处理方法,将题块图像中的文本行及题目配图准确地定位和切分出来。2.融合表达式向量的文本及数学公式混合图像内容检测算法。针对数学表达式与中英文文本混合识别
比特币上的用户是高度匿名化的,这也滋生出许多经由比特币的违法行为,例如暗网,洗钱等等。考虑到这些违法行为在比特币交易行为上会体现某一些特征,所以本文考虑从交易行为的角度对比特币上的数据进行分析,从而实现一定程度上的去匿名化,这可以为监管机构和执法部门在对比特币上的违法交易做检测和取证时提供帮助。传统方法对比特币上的交易行为分析主要是通过启发式方法合并实体,借由实体来分析其共性,或者通过特征工程,再
目标检测算法是自动驾驶环境感知的关键技术之一。算法的复杂度特性和参数规模,使得车载计算平台的算力和功耗面临挑战。如何设计符合硬件特性要求的轻量化神经网络,是当前自动驾驶感知系统面临的难题。为此,本文综合考虑算法与硬件特性,基于FPGA车载计算平台实现了目标检测算法的设计与优化。在FPGA低功耗的前提下,针对当前算法与硬件设计割裂的问题,本文提出软硬件联合学习方法,设计了符合硬件特性的轻量化骨干网络