论文部分内容阅读
近年来,随着Internet技术的高速发展,Web信息爆炸性增长,互联网已成为海量数据空间。人们从这些海量数据中得到自己需要的信息变的越来越困难,此时搜索技术变的尤为重要。随着搜索引擎技术的高速发展,通用搜索引擎的功能变的日益强大,这使得通用搜索引擎的结构也日益复杂,拥有庞大的索引数据和十分宽泛的主题,并且主题与主题之间无分类。而且通用搜索的搜索深度不够,查准率较低,时效性较差等这些局限性决定了通用搜索并不能满足特定用户的需求。由于人们对特定领域、特殊行业的个性化需求,人们迫切需要更有针对性、更具搜索深度的搜索引擎,在这种情况下,面向特定领域的垂直搜索技术应运而生。目前已有很多垂直搜索引擎,如生活搜索酷讯、旅游搜索去哪儿网等,但这些垂直搜索引擎仍采用基于关键词的搜索方式,无法满足用户语义级别的检索要求。为了研究和实现语义层面的垂直搜索,提高检索质量,依据课题背景和课题来源,本文主要研究分布式环境下语义垂直搜索技术和系统实现。主要包括研究领域本体的构建,基于领域本体的语义查询扩展方法,基于DOM树的信息抽取,采用最新索引Lucene4.x等技术实现语义级别的垂直搜索,并做出实验数据分析。本文研究和完成的主要工作有:(1)通过计算机安全领域信息的采集、过滤、归类等处理构建面向计算机安全领域的领域本体,由于计算机安全领域涉及广泛,出于时间上的考虑,本文针对计算机安全领域狭窄范围进行本体的构建。并对各类的属性和类之间的关系进行定义描述,实现计算机安全领域知识的表示和信息组织。(2)根据计算机安全领域独有的特点,使用基于规则的DOM树的信息抽取技术初步实现对计算机安全领域的相关信息的自动抽取,为将来本体的编辑和维护打下基础。(3)对本体中的实例、概念、对象属性、数据属性以及类与类之间的关系构建索引,利用索引完成对用户的查询请求的语义分析和语义扩展,实现语义级别的信息检索。(4)根据某所提供的语义词典和关系范畴构建概念词语层次体系,为语义查询扩展打下基础。本文设计并实现了基于计算机安全领域本体的语义垂直搜索服务。实验表明,本文设计语义垂直搜索系统能较好的解决目前基于关键字检索中存在的机械式搜索缺陷以及查询精度不够等的缺陷,说明基于领域本体的语义垂直搜索具有现实意义。