论文部分内容阅读
网络威胁情报作为一种网络安全大数据,其本质是立足于攻击者视角对防御方所面临的潜在威胁信息进行汇总与分析,进而帮助防御者更好地提升网络安全防护能力。当前随着网络安全形势的日益严峻,网络威胁情报在整个网络安全防护过程中的价值愈发突显。知识图谱作为知识工程在大数据时代成功应用的典型代表,是人工智能研究领域的一个重要分支。知识图谱本质上是一种大规模语义网络,其以图结构的形式直观地表达客观世界中存在的各种概念、实体、属性及语义关系。知识图谱技术蕴含有两个显著特性:实现多源异构数据的关联融合;实现知识的精准化语义检索与智能化推理分析。知识图谱所具备的这些特性能够完美契合大数据挖掘与分析的技术需求,为此,当前知识图谱已发展成为一种大数据处理与数据挖掘的技术体系。本文将知识图谱技术应用于网络威胁情报领域,面向非结构化网络威胁情报数据,深入研究网络威胁情报知识图谱构建与应用过程中所涉及的关键技术,重点探索了面向非结构化网络威胁情报的知识抽取方法以及面向网络威胁情报知识图谱的知识推理方法,梳理了知识图谱在网络威胁情报领域应用的技术体系。本文主要工作如下:1.提出基于多特征融合的威胁情报实体抽取方法。构建网络威胁情报知识图谱,在从非结构化网络威胁情报中自动抽取威胁相关知识的过程中,威胁实体的抽取是一项基础任务,包括软件、恶意软件、漏洞、攻击工具、攻击模式等特定类别。针对当前基于神经网络的端到端实体抽取系统应用于网络威胁情报领域时,无法准确标注威胁情报实体类别及其边界的问题,提出了融合词特征、字符特征、实体边界特征以及实体词的上下文特征,将该研究问题建模为序列标注任务,基于深度学习模型和注意力机制设计编-解码框架,在更为准确地识别网络威胁情报实体的同时,提高模型训练速度。2.提出基于语义特征增强的网络威胁情报实体关系抽取方法。针对为威胁情报实体建立语义关联的问题,面向非结构化的网络威胁情报,融合实体间关联的全局语义特征和局部语义特征,并将关系抽取问题转化为威胁情报实体间的关系分类问题。考虑到端到端实体关系抽取系统在实体语义关系信息获取上的局限性,引入对抗学习机制以增强实体关系所表征的语义特征。在此基础上,将表征威胁情报实体关系的语义特征送入多分类器进行训练,得到监督学习下针对句子级网络威胁情报的实体关系抽取系统。3.提出融合对抗主动学习的网络威胁情报知识三元组抽取方法。针对句子级的威胁情报实体语义关系抽取系统在实践效率和重叠关系获取中所存在的问题,设计面向威胁情报实体和关系的联合抽取方案。引入一种新的联合标注策略,将实体和关系的联合抽取问题建模为一种序列标注任务,基于深度学习设计编-解码器框架,并引入动态注意力机制以更好地捕获序列中各个词间的依赖性。该方法可适用于段落级威胁情报实体-关系语义三元组的直接获取。此外,鉴于联合抽取方法缺乏标签数据,提出一种对抗主动学习算法,通过比较数据的语义相似性,选择待标注的训练样本,以较低的标注代价不断提升模型性能。4.提出混合强化学习和图卷积网络的威胁知识推理方法。针对面向威胁情报知识图谱进行语义检索无法直接获得隐式知识的问题,提出一种知识推理技术,旨在推理预测威胁情报实体间的隐含关系,实现关系推理。具体地,结合当前基于强化学习和图卷积网络在通用领域知识图谱知识推理中的实践,设计一种对抗学习机制,通过对抗训练同时增强基于强化学习的知识推理能力以及基于图卷积网络的关系路径编码能力,在此基础上,将其应用于威胁情报知识语义三元组,实现混合强化学习和图卷积网络的威胁知识推理系统。