基于领域本体和相似概念背景图的主题爬行策略研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:mnbvcxzxzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网中的信息以指数数量级的增长,互联网中所包含的信息量越来越大,这给人们寻找有用信息带来了困难,因此一个高效准确的用于组织和检索有用信息的搜索引擎就变得越来越必要。爬行虫是搜索引擎中的一个重要组件,它主要用于从网上搜集文档信息。由于用于通用搜索引擎的爬行虫耗费大量的磁盘空间和网络带宽,并且搜索结果的准确率也比较低,因此主题搜索引擎以其智能化、个性化、领域化、专业化等特点很快成为了当前学术界和产业界研究的热点。主题爬行虫致力于搜集与预先给定的主题相关的网页,而不是遍历整个网络,它基于这样的一个事实:一个主题相关的网页总趋向于链向相同主题的其他网页。主题爬行虫需要解决的一个主要问题就是在爬行过程中如何为未访问的URLs赋予一个适当的优先级分值以维持比较高的收获率。为了解决这个问题,本文提出了一种基于领域本体和形式概念分析技术的主题爬行策略,该策略首先通过WordNet和概念相关度构建核心相似图,然后结合概念格知识构建相似概念背景图,最后结合URL对应的锚文本与主题的相关度以及链接分析技术计算待爬行URLs的优先级分值,并最终决定URLs的访问顺序。论文的主要研究内容包括以下几点:1.提出了一种度量语义相关度的方法。语义相关度是用来衡量文档或词语之间语义相关性的一个概念,它反映了两个对象之间的关联程度。本文借助WordNet领域本体所包含的丰富语义,借鉴了多种度量语义相关度的方法,并最终总结出了应用于本文的度量语义相关度的方法。2.提出了一种构建相似概念背景图的方法。本文通过对搜集回的代表爬行主题的基础网页和基础网页链向的当前网页进行分析处理后得到的基础概念格、当前概念格以及能描述爬行主题的特征词集后,首先将特征词集基于WordNet词库进行同义词扩展,生成扩展特征词集,然后再使用度量语义相关度的方法构建核心相似图,最后根据本文提出的算法利用核心相似图、基础概念格和当前概念格构建相似概念背景图。3.提出了一种基于语义链接分析和相似概念背景图的预测URLs优先级分值的策略。锚文本一般是网页的引用者从另一个角度对网页主题进行的简短概述,因此它最能体现网页的主题。本文提出了一种计算锚文本和主题相关度的方法,并结合上文中生成的相似概念背景图,提出了一种计算URLs优先级分值的方法按照优先级分值的大小指导主题爬行。最后,论文利用召回率、recall-precision、F-Measure等三种度量指标对比分析了本文提出的主题爬行策略和基于宽度优先的爬行策略、基于背景图的主题爬行策略、基于相关背景图的主题爬行策略以及基于概念背景图的主题爬行策略。实验表明,在同等条件下,本文提出的主题爬行策略具有一定的优势,这也论证了该方法的有效性和可行性。
其他文献
随着我国国民经济的快速增长,煤炭的需求量呈现快速增长态势。国家和地方相继投资一批新建矿井以满足国民经济的发展对能源的需求。矿井建设包括很多子工程,是一个特别复杂的工
近年来,数据流分类问题引起了广大研究者越来越多的关注。然而,实际应用中的数据流的类分布往往是非平衡的,即某些类(小类)的实例数量明显少于其他类(大类),被称为倾斜数据流SDS(
随着计算机技术的不断进步及互联网的快速普及,互联网上的各类信息正以爆炸式的趋势发展,它在带给人们丰富充足的海量信息的同时,也给我们快速有效的搜索到最有用的信息为目
分布式环境下具有高并发扩展能力的缓存技术是当前众多软件系统迫切需要的,尤其是流媒体资源共享存储系统。设计分布式计算环境下的高并发扩展能力的缓存技术,具有广泛的应用前
参数化特征建模是目前主流的CAD建模方法,但是随着现在的模型越来越复杂,对参数化特征模型进行变动修改的效率和健壮性变得越来越低,而且基于历史的建模方式限制了用户在进行
随着智能手机、平板电脑、头戴显示设备的飞速发展,增强现实技术得到了人们的广泛关注。增强现实具有虚实融合和三维注册等特点。因此,虚拟物体的真实感呈现和相机位姿的准确
本文从固定优先级(Fixed Priority,简称FP)调度算法的调度模型出发,介绍了实时系统的基本知识,阐述了可调度性判定在实时系统设计中的重要意义。论文研究了Bertogna等人基于
随着通信技术和网络技术的发展,以简单、灵活著称的SIP协议正越来越受到人们的关注,并且正在逐步取代原有的H.323协议成为IP语音技术(VoIP)的信令核心协议。与此同时,随着嵌入式
运动目标检测问题是计算机视觉领域的研究热点问题,涉及到了模式识别、图像处理、概率论与数理统计等多门学科,在交通系统、军事领域、生产控制等领域有着极为广阔的应用前景。
为了满足租户的业务定制需求,云服务系统需要对于租户不断变更的需求及业务领域内流程变化具有一定的适应性。为此,提出一种在柔性SaaS模式下构建云服务系统的方法。该方法以