网络威胁情报实体识别模型研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:wukai110032
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,网络空间中攻击者使用的攻击手段日益复杂,个人财产及隐私安全、企业运营安全以及国家信息基础设施安全在内的网络空间安全体系面临着严峻的挑战。网络威胁情报作为重要的网络安全技术之一,在攻击行为发生之前对网络空间中的相关情报证据进行搜证和关联分析,通过特征学习实现对未知威胁源的甄别,促进了网络攻防由传统的事后被动响应向事前主动防御转变。非结构化的文本情报中包含了大量利用价值较高的事件级情报,包括但不限于攻击手段、攻击策略等情报信息。由于网络环境的开放性,非结构化的情报源数据中同时也夹杂着大量的无效或干扰信息,因此,关键的价值情报的快速识别极具挑战。本文从情报本身出发,对面向网络威胁情报领域的情报实体识别问题进行了研究,主要工作及贡献如下:(1)针对非结构化网络威胁文本情报的实体识别难、关键情报实体定位难这两大难题,提出了一种基于深度学习的网络威胁情报实体识别模型。本文使用浅层神经网络训练的语言模型对一定规模的混合语料进行情报字向量预训练,将其用作实体识别模型神经网络层的特征输入;构建双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)对输入的情报文本序列进行双向的上下文学习,充分提取文本序列的全局特征;在此基础上,为提高关键实体识别的精确度,本文为情报实体构建了字级注意力机制(Attention),计算每个状态的目标字与序列内部其他字的相似性,以为关键情报实体分配更多权重;利用条件随机场(Conditional Random Field,CRF)对神经网络层的输出进行特征建模,学习标签的前后依赖关系,确保最终输出的标签序列合法有效。人工标注网络威胁情报非结构化文本数据集,并采用交叉验证方式对模型的识别性能进行训练、验证及测试,实验结果表明,基于上述情报实体识别模型,对测试集中的6类主要实体识别任务的F1-score最高达84.10%;设置多组对比实验,结果表明该模型在情报实体识别方面上的综合表现优于已有的模型。(2)针对实际安全运营中情报平台的市场需求和用户的功能需求,本文设计并开发了面向网络威胁情报的实体识别平台。在充分调研了现有情报平台的基础上,本文平台分别设计了情报数据采集模块、情报实体识别模块、情报关联分析模块及情报可视化模块。情报数据采集模块针对不同结构和层次的情报制定不同的采集策略,完成对多源异构情报的源数据采集,并根据网络威胁情报的实体表达模型为基础情报制定情报字典,消除情报的结构化差异,实现多源异构基础情报的聚合;情报实体识别模块应用基于Attention_BiLSTM-CRF的情报实体识别模型对非结构化文本中的关键情报实体进行自动识别和抽取;情报关联分析模块通过情报数据库内的关联搜索和基于情报词向量的词关系模型分别实现了面向基础情报样本和事件情报实体的关联发现和攻击分析。最后,平台的情报可视化模块负责对以上功能实现做结果展示。
其他文献
目的:检测汉族和新疆哈萨克族食管鳞状细胞癌(esophageal squamous carcinoma,ESCC)、高级别上皮内瘤变(HGIN)、低级别上皮内瘤变(LGIN)以及癌旁正常组织中Profilin2蛋白的表达情况
随着区块链的诞生与快速发展,诸多领域逐渐产生了基于区块链技术的应用,包括区块链技术在金融领域的跨境支付、物流和农业领域的追踪溯源、公共服务领域的公共管理、数字版权领域的确权管理等。区块链系统是一个去中心化的共享数据库,因此,确保区块链系统的一致性和安全性是至关重要的。共识机制是区块链系统的核心技术,它通过特殊节点的投票,在短时间内对交易进行验证和确认,解决了如何在一个缺乏信任、完全自由开放的网络中
自训练是半监督分类中最常用的算法之一,该算法通过自主迭代的方式训练分类器,简单有效.但是,在自训练算法训练分类器的过程中,容易对无标记样本分类错误,而且这些错误标签会用于后续迭代训练,造成错误累积,从而降低算法的分类准确率.本文从处理错误标记样本的角度出发,对自训练分类算法展开深入研究,主要工作如下.本文提出了一种基于密度峰值和切边权值统计的自训练(ST-DP-CEWS)算法.在每次迭代训练时,首
“兴”是东北方言口语中的常用词,有动词、语气副词和类词缀用法。东北方言动词“兴”包括三个子类:谓宾动词、状态动词和能愿动词。谓宾动词“兴”,意为“准许、允许”,在句中作谓语,其后接成分为谓词性成分,“兴”可用于肯定句与否定句中,具有[+准许]的语义特征,语用功能为增强情感表达和心理表达。状态动词“兴”,意为“流行”,在句中作谓语,后接成分为代词、动词短语、状中短语和定中短语,“兴”表示的是不受人的
丝网版画是一种独具魅力的绘画表现形式,其特有的表现力受到了广泛应用。本文主要阐述的是丝网版画《梦境》系列的创作与研究整体过程,其中包括创作的目的与意义,以及创作的经过。丝网版画《梦境》系列作品主要是探究人们关于“梦境”这种奇妙的生理现象。每个人都会做梦,千奇百怪的梦。梦是睡眠中最有趣又神秘的一部分。各式各样美好、幸福、恐惧的场景都会栩栩如生地在人们的脑中上演。人们也在不断地探究如何解释梦的出现及其
临空经济是区域经济发展的动力,吸引与航空运输相关的产业聚集。临空经济区作为一种新型的经济现象,在促进区域经济发展中发挥着重要作用,特别是在大型机场地区,人员和物流密集使得临空经济区的发展与影响更为显著。在20世纪90年代,中国的临空经济开始萌芽,国内各省市也开始规划临空经济,政府在临空经济的发展中具有不可替代的作用。政府正确的政策导向可以为临空经济区的发展提供良好的投融资环境和市场秩序,通过协调各
21世纪,随着全球化深入推进,各国间经济联系日益增强。柬埔寨自1998年全国大选以来,经济发展迅速,然而受历史因素影响,柬埔寨工业依旧落后。2015年,柬埔寨政府出台了《柬埔寨工业发展政策2015-2025》,描绘了柬埔寨未来十年工业发展蓝图。这份文件对中国读者了解柬埔寨国情、促进中柬经贸关系发展将起重大作用。笔者于2019年10月至2020年1月翻译了这份英文文件“总论”至“策略框架”六章的内容
近年来,视觉传感器和处理器性能的不断提升为相机阵列的研究奠定了硬件基础。与单相机采集装置不同,相机阵列拥有更大的视野范围,获取到的信息也更加丰富。作为常用的光场采集设备之一,相机阵列不仅能够采集成像平面的色彩信息,而且可以记录成像光线的角度信息。因此,基于相机阵列的算法研究打破传统单一视角算法的局限,通过融合多视角获取的互补信息,为解决复杂场景中的目标遮挡问题提供了新的解决思路。本文在相机阵列的基
申钦是朝鲜朝中期著名的诗人,其主要的诗学著作被收录在《象村稿》中。由于朝鲜政治上的动荡不安使得中朝两国政治交往频繁,政治上的往来也促进了两国文学上的交流,在申钦的诗学观中有着明显的中国元素,因此采用“影响研究”和“知人论世”的方法对其诗学观进行研究。首先,从申钦生活朝代的历史环境和文学环境出发,朝鲜朝中期性理学的空洞僵化、排斥他学,制约了朝鲜诗学的发展。于是朝鲜诗坛转投注重性情的阳明心学和重视实用
近年来,中国森林康养产业发展迅猛。随着城市化进程的加快,空气污染和交通拥堵等问题日益严峻,高强度的工作节奏和日益突出的环境问题导致中国慢性病患者数量大幅增长。据统计,中国慢性病患者数量已接近3亿人,占总人口近1/4,并且呈年轻化趋势发展,由慢性病导致的死亡占总死亡的85%。人们亲近自然的渴望以及对健康生活的追求推动了森林康养产业的发展,以此催生了新的健康产业链。同时,中国也面临着老龄化问题加剧带来