软件知识领域知识图谱构建关键技术研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:weishaohua1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱已经在各行各业中得到了很好的应用,如法律、医疗、金融等领域。然而软件知识领域至今还没有相应的知识图谱得以建立,因此构建软件知识领域知识图谱显得十分重要。其次将软件知识图谱融入到软件领域个性化习题推荐中,可以增强推荐的科学性和可解释性。本文针对目前软件知识领域中的知识图谱构建及其相关技术问题展开了相关的研究,主要研究内容如下:对软件知识领域知识图谱的关键技术展开综述。由于目前关于领域知识图谱构建技术的相关综述较少,通过对大量国内外文献资料充分调研,本文对基于特定领域知识图谱的关键技术展开综述。首先概述了特定领域知识图谱数据的来源,以及通常数据的相应格式;其次介绍领域知识图谱构造的关键技术以及相关的算法模型;最后针对特定领域知识图谱的关键技术进行总结。对软件知识领域数据展开收集与标注。由于目前针对软件知识领域没有现有的数据集可以使用,本文先是通过爬虫相关技术从互联网获取相应的数据文本,然后通过数据处理相关技术,针对获取的数据集进行清洗,构造实体表,并对获取的数据文本进行特征标记,构造了软件知识领域的数据集。本文采用基于位置编码的多头注意力的Bi LSTM-CRF实体识别模型。本文通过对传统实体识别算法LSTM-CRF的研究,发现在编码的时候,引入位置编码与多头注意力机制会对实体识别的准确率有进一步的提高。通过引入位置编码和多头注意力机制,可以对要进行识别的软件知识实体实现更为精确的识别,并且通过多头注意力模型可以并行处理任意两个词之间的相互联系,而不仅仅是只能顺序提取,并且解决了传统循环神经网络的长距离依赖问题。通过实验证明了引入位置编码的多头注意力模型对实体识别的准确率有了进一步的提高。本文采用基于Bert的实体关系分类方法。本文为解决传统文本特征稀疏和上下文依赖性强的问题,使用增强语义关系的Bert-Bi GRU并结合多头注意力机制的增强语义网络模型。通过Bert模型实现文本语义的增强,将生成的向量作为训练文本的词表征进行语义增强,然后输入到Bi GRU中提取进一步提取上下文特征,然后通过多头注意力机制进行语义关系权值调整,最后通过softmax进行关系分类。实验表明,相较于其他的主流方法,本文提出来的增强语义网络模型在软件知识领域关系抽取效果上有显著提升。设计并实现了软件知识领域知识图谱的应用系统。基于上述的实体识别与关系抽取两个实验后,针对得到的实体关系三元组,进行部分关系修改。对最后的知识图谱进行可视化展示,并且设计了软件知识领域的习题推荐模块。本文针对软件知识领域知识图谱构建关键技术进行梳理,以及针对现行知识图谱构建技术的问题,以提高实体识别和关系抽取准确率为主要研究目标,以基于深度学习特定领域知识图谱构建关键技术为主要内容,通过研究深度学习在软件知识领域知识图谱构建的应用,实现了软件知识领域实体识别和关系抽取。并且针对现有在线教育题目推荐功能进行改进,增加了推荐的科学性,使推荐更具有实际意义,解决了部分现有领域知识图谱构建关键技术存在的问题,具有较高的应用价值和现实意义。
其他文献
随着互联网和大数据的快速发展,全球每时每刻都在产生海量的,结构化或者非结构化的数据,这些数据格式多样化,有图片,文本,音频,视频等等。由于数据的多样化以及数据表示的多样性,大数据不经过结构化处理在许多情况下将无法有效的应用。本文重点研究多源异构的非结构化、半结构化初等数学领域数据如何表示为结构化数据,并依据数学领域知识图谱构建的方式构建初等数学概念知识图谱。然后将构建完成的概念知识图谱应用到纯数学
近年来云计算发展越来越迅猛,并在大流行中对全世界的复苏发挥重要作用,而虚拟化作为云计算的关键技术之一,也在不断地发展,作为软件虚拟化应用之一的桌面虚拟化技术在企业中也得到更广泛地使用。与此同时,Android手机全球出货量趋于收紧,受大流行影响,这一情况进一步加剧。目前市面上桌面虚拟化技术大多面向传统PC系统,缺乏对移动端系统的支持。Android手机长期受困于恶意程序偷取用户隐私现象;不仅如此,
随着中国城市化进程的加快,城市汽车保有量不断增加,城市交通需求呈现增长态势,引发出交通拥堵、交通事故等一系列关乎民生福祉的问题,严重阻碍了城市的高质量发展。在当前的城市智能交通系统中,快速准确的交通流预测是城市交通控制的必要前提,在智能交通系统中发挥着重要作用。基于以上背景,本文对道路数据特征展开研究,提出了不同交通原始数据情况下的两种短时交通流预测方法,设计并实现了一个短时交通流预测系统,主要工
随着科学技术的发展,各种各样定位设备不断涌现,可获取到轨迹数据的数量与种类迅速增长。对获取到的轨迹数据进行储存,分析在行为识别、交通规划、城市安全与防控等方面都可以发挥重要作用。其中,对人类轨迹的研究可以获取行为方式、个人偏好等关键信息,对许多领域的进一步研究都有推进作用。因此研究行人的轨迹预测算法具有重要意义。传统的轨迹预测方法基于数学统计模型对行人的运动模式建模难以适用于复杂场景。复杂场景中存
在城轨车辆运行试验过程中发现了车辆存在紧急通风逆变器不能启动的问题,针对该问题分析逆变器的启动工作原理,核查设备与车辆的接线点位及线缆的走线路径,最终确定问题的根本原因是由于设备干扰导致误触发停止信号使逆变器无法启动,经研究对电路进行改进,并经过实际运用验证表明改进措施行之有效。
现代社会,随着互联网技术的高速发展和信息化时代的到来,全球信息量暴增,人工处理信息的速度远不能满足人们的需求。自动文本摘要技术可以帮助人们快速从文本中精炼出重要信息,从而提高人们信息获取的效率。自动文本摘要技术主要分为抽取式和生成式两大类,两类方法有不同的使用场景。为了满足不同的应用需求,本文对抽取式的TextRank算法和生成式的PreSumm模型进行了研究,并对其中存在的问题提出了改进方法,提
伴随着信息技术以及各种互联网企业的迅猛发展,面对爆炸的数据以及种类繁多的新业务,传统老旧的运维方式已经不能满足一个大型企业的需求,高昂的人力成本也是人工运维必须要去面对的一个问题。在此场景下,一个高智能化的运维系统显得尤其重要。因此,针对上述问题,人们提出了一种基于机器学习的智能化运维(AIOps)技术来解决这些困难。容量分析是智能运维(AIOps)中极为重要的一个部分。本文研究的电信运维容量分析
源代码搜索是指根据自然语言查询语句获取对应的函数代码片段。其中主要涉及了自然语言处理技术,并通过将自然语言处理技术引入到源代码文本上,实现跨越自然语言与源代码两种模态形式进行搜索。现有的方法基于传统的序列表示模型分别处理自然语言语句与源代码文本输出形成向量表征形式,经过相似性比对实现搜索任务。但传统的序列表示模型例如词包模型、循环神经网络模型等对语义的特征能力抽取不足,而源代码信息含量对比自然语言
在问题规模不断增大的背景下,机器学习和深度学习的应用门槛越来越高,且需要极具经验的人工干预。然而,人工干预往往需要耗费大量的时间和计算成本。为了更好的解决上述限制,本文针对机器学习和深度学习流程中的超参数优化以及模型选择两个流程进行深入研究并实现高效的算法。对于超参数优化问题,本文以强化学习作为技术支持,实现了一种超参数优化方法。该方法通过序列选择各个超参数的方式,能够减少每一步超参数的搜索空间,