小规模知识库指导下的细分领域知识图谱构建研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:hehan1127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱本质上是一种高效率、可解释的知识组织方式,通过多个知识单元之间的关系迁移,可以反映出更多事实知识。一些传统的知识组织方式如分类法、主题词表等尚未深入到知识的语义层面,难以表现出知识单元之间的多种关联,而知识图谱的出现恰好解决了这一问题。如今,知识图谱技术作为一种用于描述客观世界中概念、实例及其关系的新方法,得到了人们的广泛关注,合理利用知识图谱可以有效拓展知识探索的深度和广度。那么,如何低成本构建领域性的知识图谱是当前亟需解决的问题。知识图谱的有效构建主要涉及实体和实体关系两个要素,在更多的细分领域场景下,制约目前已有的实体识别、实体关系识别技术泛化应用的主要原因是缺乏可靠的标注语料。相应地,以细分领域已有的小规模知识库作为指导,充分对其中的语义信息进行合理提取和利用,能够在一定程度上帮助领域知识图谱的自动构建。本文以“心血管疾病”领域为例,从构建细分领域知识图谱的两个关键要素入手并开展探索,即细分领域实体识别和细分领域实体关系识别。在实体识别实验中,利用已有的领域知识(百科、词表)辅助小规模领域语料标注,降低人力成本,并使用RNN、LSTM、LSTM-CRF、Bi LSTM-CRF这几种神经网络模型和BERT预训练模型分别进行序列标注模型训练,最终取得较好的实体自动识别效果。Bi LSTM-CRF模型的F1值达85%以上,BERT预训练模型的在微调后识别结果的F1可达88.35%,“器官”和“诊断方式”这两类实体的识别准确率超过90%;在关系识别实验中,提出一种融合领域元知识(即关系约束)和词嵌入向量类比的方案,根据已有的小规模知识库制定出特定细分领域的实体关系约束条件,依靠相应领域背景语料计算出领域实体的词嵌入向量,对知识库中少量易获取的实体关系进行词嵌入类比学习,生成不同类型实体关系的初始分类器。并对分类器在模拟现实场景下的表现效果进行测试,再使用主动学习的方法修正分类器在表现较为薄弱的关系层上的效果,实验结果表明通过主动学习能够有效提升初始训练器的识别效果。
其他文献
感觉统合能力的培养贯穿人早期生长发育的全过程,感觉统合失调会导致儿童在日常生活中出现一定程度的行为失常和心理障碍,严重阻碍儿童的生理和心理健康发展。3~6岁的学前阶段是对感觉统合失调儿童进行恢复训练的最佳时期,因此,对学前儿童进行感觉统合训练对于儿童的健康发展具有重要意义。家庭是儿童主要的生活环境,在儿童感觉统合失调的原因中,家庭环境因素占有很大比重。家庭环境是儿童提升感觉统合能力的主要场所,家庭
随着时代经济突飞猛进地发展,电视观众们的收视习惯也随之慢慢发生了变化,电视文艺晚会也在持续不断的更新。但是,当历史进入21世纪时,电视文艺晚会的地位也在悄无声息地进行着改变,从万人追捧转变为平平淡淡的地步,它遇到了发展瓶颈期,需要探究该如何推动其继续发展。
招标代理企业与军队之间的委托代理合作关系促使军队获得了更多物资采购市场的有效信息,招标代理企业也开拓了一个新的市场,军方和招标代理之间的联系也在合作中不断加强。但是,随着双方委托代理次数的增加也出现了一些事后的道德风险行为,比如招标代理企业与物资供应商之间的寻租,严重危害军品采购市场秩序,导致物资采购的效率降低,影响军队日常供需。故而,针对如何降低招标代理企业在代理物资采购过程中寻租行为发生的可能
库存问题是指企业在生产、经营的过程中对产品以及其他资源进行合理有效的管控。随着市场经济的高速运转,用户个性化的需求也在不断变化,这导致企业之间的竞争变得越发激烈。为了更好地应对需求不确定性的增加,制造商的生产和销售行为逐渐朝着小批量、多种类、多个阶段的方向发展。而库存管理的水平很大程度上受制于企业综合物流和供应链的管控,高效的供应链机制是保证供需平衡和降低成本的关键,因此本文将多阶段随机库存问题与
2017年10月18日,习近平在北京召开的中国共产党第十九次全国代表大会上指出:“房子是用来住的,不是用来炒的”。同时针对当下的房地产市场进行了一系列的政策改革,如租售同权,构建多主体的供给体系等。而居高不下的房价更是使得政府的各种直接或间接的调控政策层出不穷。这一切都可以清楚的表明,房地产的价格已经很难维持之前较快的上涨速度,价格也将渐渐维持在一个平稳的水平。所以在这种大环境的驱使下,房地产企业
大数据时代,医学文献知识发现一直受到研究人员的关注。随着海量医疗数据的涌现,大量的生物医学信息,比如,疾病、基因和药物等实体信息以非结构化的方式呈现在肿瘤研究文献中,数据的复杂多样性为知识发现研究提出了新的挑战。目前,鲜有研究融合文本词嵌入表示技术和主题层面知识对医学文献进行知识发现探究。因此,本研究提出了一种基于词嵌入表示的肿瘤文献主题知识发现模型,以肿瘤文献为研究对象,用主题词嵌入表示模型(T
压缩可燃气体一旦在管道处泄漏,所引发的喷射火事故破坏性较大,在一定范围内会对周围环境及人员造成严重影响。为了研究喷射火危害特性的影响因素,本文在总结国内外喷射火实验及模拟工作基础上,设计了喷射火实验场地,对甲烷、乙烷喷射火的喷射压力、喷嘴口径以及不同化学反应机理开展了实验研究,并通过数值模拟分析了不同工况对喷射火的影响程度和热辐射范围,以期对降低喷射火危害程度和救援过程中消防员受到的伤害做出一定参
随着互联网的发展,越来越多的政府和企业机构开始对数据进行公开,数据开放成为大势所趋。为了更好地利用企业和政府提供的开放数据,激励更多的公众参与到知识创新中,众多机构采用了开放数据竞赛的模式。开放数据竞赛是主办方以推动互联网公共开放数据的挖掘和使用为目的,旨在收集某一领域对网络开放数据成功使用案例的一种竞赛形式。开放数据竞赛作为一种新兴的开放创新形式,在国内外已经有诸多成功的案例,然而在学术界内尚未
随着互联网的快速发展和移动音乐App的兴起,用户日常音乐交互行为渐趋频繁,音乐信息偶遇正逐渐成为用户获取音乐信息的重要途径。信息偶遇作为一种动态、多情境和多种因素复杂交互的信息活动,传统的线性描述性模型无法对其提供充分阐释和深入刻画。此外,在娱乐导向型的音乐信息环境中,音乐信息特征、用户心理状态、交互平台和社交网络等因素与任务驱动型的信息情境相比存在较大的差别,用户信息偶遇也势必会呈现出新的特点。
互联网时代带来了海量的信息,也使信息更容易被获取,然而海量的信息带给用户更多的是信息的真伪难辨和信息不对称,这为信息瀑布的产生提供了条件。互联网中信息的高速传播使信息瀑布现象产生的更加迅速和猛烈,这也极大地加剧了企业和政府对信息瀑布现象的管控难度。本研究将信息瀑布中个体决策行为作为研究对象,基于调节定向、有限理性和前景理论等个体决策的相关理论,改进传统的个体决策模型,从信息瀑布中个体决策的外部环境