【摘 要】
:
随着万维网的迅速发展,越来越多的组织、公司等在万维网上发布已发现的软件安全缺陷信息。本文研究基于垂直搜索技术从网上获取软件安全缺陷信息,并进一步基于语义标注抽取该
论文部分内容阅读
随着万维网的迅速发展,越来越多的组织、公司等在万维网上发布已发现的软件安全缺陷信息。本文研究基于垂直搜索技术从网上获取软件安全缺陷信息,并进一步基于语义标注抽取该信息用于构建软件安全缺陷知识库。借助垂直搜索和语义标注标注技术,实现了从万维网上获取软件安全缺陷信息的工具。该工具首先设计关键字训练器获得软件安全缺陷领域的关键词;然后通过获得的领域关键词设计网页过滤器;最后基于此网页过滤器设计垂直搜索爬虫,从万维网上搜索爬取软件安全缺陷信息。实现了基于网页拓扑和基于关键字权值过滤算法的网页过滤器,以及最优搜索策略结合广度优先搜索策略的垂直搜索爬虫工具,该爬虫结合网页过滤器可以过滤非软件安全领域网页,能够自动的多线程下载软件安全领域网页;设计并实现了利用百度搜索引擎获取软件安全缺陷信息的工具;实现了基于网页内容分析算法的领域关键字训练器工具,该工具为网页过滤器提供关键字及其权值;设计并实现基于GATE工具对下载网页进行语义标注并采用基于JAXP的语义标注结果解析,该工具通过GATE工具对非结构化的网页信息进行语义标注,采用JAXP技术对标注的结果进行解析,抽取网页中的安全缺陷信息。该工具可以对万维网中的软件安全领域相关信息进行实时有效的搜索爬取,并对其信息进行结构化处理,为构建软件安全缺陷知识库和分析软件安全漏洞提供数据支持奠定基础。
其他文献
随着Agent技术的发展,基于Agent技术的电子商务逐渐成为研究的热点。目前的电子商务自动化方面的技术支持还比较薄弱,尤其是自动协商方面。Agent所具有的社会性、自治性等特
在当今“顾客就是上帝”的时代,谁能够建立有效的产品售后服务机制,快速地响应顾客的需求,谁就能够赢得顾客的尊重与口碑,从而赢得市场。为了提高汽车售后服务的质量和效率,
随着人类基因组计划(简称为HGP)在世界范围内的广泛开展产生了大量有待于分析与处理的生物学数据(DNA、RNA及蛋白质数据等),借助计算机技术对这些数据进行组织与处理是计算机
根据高职高专院校的具体情况,将数据挖掘技术引入招生领域,分析了数据挖掘的各种方法。采用决策树的分类方法,对历年的生源数据进行挖掘,对生源的性别、成绩、所属类别、特长
随着多核处理器的发展,为了解决多核处理器上编程复杂的状况,数据流编程模型被提出。现存的数据流编程模型中,主要使用的是完全静态的调度,虽然性能有很大提升,但是并不适用
随着计算机技术和网络技术的广泛应用,在新闻出版、医疗卫生、建筑设计等行业每天会产生大量的数字图像。如何有效地对这些图像进行分析、存储和检索是一个亟待解决的问题。
随着计算机视觉技术的发展以及人们对新的交互手段的需求,基于计算机视觉的交互系统(如手语、人脸、表情、唇读、头势、体势等)便逐渐发展起来。其中手势完全可以作为一种手
多处理机系统中引入虚拟化,会带来很大的优势——多处理机系统使得虚拟化技术能够应用更多原本可能会被浪费的处理器周期和计算资源,从而实现集中化计算和资源的动态分配,充
Internet上数量不断激增的网站,使得人们上网的起点,从默记的网址,演变为网站黄页,又被搜索引擎所替代。但以搜索引擎为核心的日常网络生活仍不够便捷。iGoogle, Yahoo!和AOL
P2P网络是近年来的研究热点,如何在分布广泛、数量庞大、节点行为不可控制的复杂环境下实现高效的检索服务是P2P应用面临的巨大挑战。目前的P2P资源检索一般仅支持简单的关键