面向分布式数据源的语义垂直搜索系统研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:pcxuexi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Internet技术的高速发展,Web信息爆炸性增长,互联网已成为海量数据空间。人们从这些海量数据中得到自己需要的信息变的越来越困难,此时搜索技术变的尤为重要。随着搜索引擎技术的高速发展,通用搜索引擎的功能变的日益强大,这使得通用搜索引擎的结构也日益复杂,拥有庞大的索引数据和十分宽泛的主题,并且主题与主题之间无分类。而且通用搜索的搜索深度不够,查准率较低,时效性较差等这些局限性决定了通用搜索并不能满足特定用户的需求。由于人们对特定领域、特殊行业的个性化需求,人们迫切需要更有针对性、更具搜索深度的搜索引擎,在这种情况下,面向特定领域的垂直搜索技术应运而生。目前已有很多垂直搜索引擎,如生活搜索酷讯、旅游搜索去哪儿网等,但这些垂直搜索引擎仍采用基于关键词的搜索方式,无法满足用户语义级别的检索要求。为了研究和实现语义层面的垂直搜索,提高检索质量,依据课题背景和课题来源,本文主要研究分布式环境下语义垂直搜索技术和系统实现。主要包括研究领域本体的构建,基于领域本体的语义查询扩展方法,基于DOM树的信息抽取,采用最新索引Lucene4.x等技术实现语义级别的垂直搜索,并做出实验数据分析。本文研究和完成的主要工作有:(1)通过计算机安全领域信息的采集、过滤、归类等处理构建面向计算机安全领域的领域本体,由于计算机安全领域涉及广泛,出于时间上的考虑,本文针对计算机安全领域狭窄范围进行本体的构建。并对各类的属性和类之间的关系进行定义描述,实现计算机安全领域知识的表示和信息组织。(2)根据计算机安全领域独有的特点,使用基于规则的DOM树的信息抽取技术初步实现对计算机安全领域的相关信息的自动抽取,为将来本体的编辑和维护打下基础。(3)对本体中的实例、概念、对象属性、数据属性以及类与类之间的关系构建索引,利用索引完成对用户的查询请求的语义分析和语义扩展,实现语义级别的信息检索。(4)根据某所提供的语义词典和关系范畴构建概念词语层次体系,为语义查询扩展打下基础。本文设计并实现了基于计算机安全领域本体的语义垂直搜索服务。实验表明,本文设计语义垂直搜索系统能较好的解决目前基于关键字检索中存在的机械式搜索缺陷以及查询精度不够等的缺陷,说明基于领域本体的语义垂直搜索具有现实意义。
其他文献
随着计算机视觉领域的不断发展,图像的处理问题越来越受到人们的关注。本课题通过对运动员的滑行数据进行分析找出与高水平运动员之间的差距,以提高运动员的水平。本课题主要分
大型公司拥有多个子公司,每个子公司一般分布在不同的地区,大型公司一般使用多数据库系统管理业务。多数据库系统的知识发现对于大型公司的管理者是一种迫切的需求。简单地将子
随着社会生活的发展,企业和政府等组织机构的数据每天都在快速增长。同时数据中的问题也越来越多,极大地降低了数据的可用性。其中实体识别问题是一个很早就困扰着数据质量管理
水射流切割技术是当今切割技术发展势头很好的一项切割应用技术,有着传统切割技术所不具备的诸多优点。作为当今最新的切割技术之一,有着广阔的应用前景和研究意义。  构建一
海量卫星图像可视化一直是地理信息系统的热点问题。随着计算机硬件的发展,海量卫星图像可视化在渲染帧率、大数据调度、外存组织等方面产生的传统问题已基本得以解决。在面向
随着多媒体信息处理技术的迅速发展,数字化产品的使用范围不断扩大,人们在享受着数字化产品便利的同时,也面临着版权被窃取或数据内容被修改的危险,严重损害了人们的利益。数字视
计算机图像审美是计算机向智能化迈进的重要体现,如何更有效地进行计算机图像审美值得研究。而国内外已有的计算机图像审美相关研究,主要以审美特征的堆砌为重点,而由于图像内容
软件即服务(Software as a Service,简称SaaS)是云计算在应用层的架构,在这种模式下客户不需要购买完整的软件系统,也不需要配备相应的硬件系统和维护人员,只需要通过互联网,按需租
智慧家庭是综合利用先进的计算机技术、互联网技术、物联网技术、通讯技术、综合布线技术、自动控制技术等,集成家庭软硬件设施,将家庭智能控制、信息交流及消费服务等家居生活
大型Web应用系统的资源管理旨在保证系统的性能,降低系统的运行开销,是系统运维的一个关键任务。资源管理需要定量地衡量工作负荷和系统配置变更后系统的性能影响。预测系统性