主题搜索引擎爬行策略的研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:johnsontai1230
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的持续爆炸性增长,通用搜索引擎的信息覆盖率和检索精度都在不断下降,发展主题搜索引擎已经成为趋势。由于主题搜索引擎搜索的内容只限于特定主题或专门领域,被通用搜索引擎所广泛采用的基于图的遍历搜索策略(如广度或深度优先算法)已不再适用,因此,以何种策略访问Web(即主题爬行策略)已成为近年来主题搜索引擎研究的关键问题之一。 本文从提高主题爬虫的搜索效率和搜索精度出发,在以下四个方面对主题搜索引擎的爬行策略进行了较为深入的研究。 首先,本文基于现阶段国内外网络爬虫的研究进展,在分析和比较现有主题网络爬虫搜索策略的优缺点的基础上,探讨了网络爬虫主题价值预测的准确性、重要性及主题网络资源覆盖度的搜索策略,以提高主题爬虫的自适应性和搜索效率。 其次,为了提高网络爬虫预测链接价值的准确性,本文提出了Shark改进算法,其主要思想是:通过改进Shark算法来提高搜索相关网页的能力以及降低优先排序空间复杂度和时间复杂度,提高搜索效率、节约大量时间和资源。 再次,为了提高网络爬虫的自适应性,本文针对传统网络爬虫存在的价值评价标准单一的问题,提出了一种基于综合价值的综合爬行策略,此策略根据不同的搜索阶段选择采用符合实际情况的最优搜索策略。 最后,本研究采用改进的Shark算法和自行设计的综合爬行策略相结合,实现了一个基于多种搜索策略的主题搜索引擎网络爬虫系统原型。本系统综合了网页的相关性和重要性两方面的需要,不仅能够准确、自动地爬行到主题相关网页,从而提高信息搜索的效率,而且还可节约网络带宽,具有良好的稳定性。另外,本系统URL的优先级侧重点是可调和,具有很强的灵活性。
其他文献
密码学(Cryptology)是信息安全的核心技术,密码函数的设计与安全性分析成为现今研究的热点之一。密码算法按其加密方式可分为流密码和分组密码。它们的安全性与其核心设计部
近几年来,基于移动对象位置,为用户提供快捷便利信息的移动信息服务受到服务提供商和用户地追捧。如何有效管理移动对象的位置信息已成为市场关注的焦点,同时也是数据库领域
随着人类对自由通信的无限渴望,近几年来网络通信的发展与日俱增,尤其是无线网络技术的发展。人们可以通过配有无线接口的变携式移动计算机或者其他带有无线传感器的网络设备进
当前,随着人们生活节奏的加快和工作压力的增加,心脏系统疾病发病率持续上升,且患者年轻化趋势越来越明显,它已经成为人类生命健康的主要威胁。医院现有的软硬件资源很难在短
1982年波兰学者Z.Pawlak提出了粗糙(Rough)集。它是一种处理不精确和不完备信息的数学工具,而且不依赖于数据集之外的任何附加信息。经历了近20年的发展,已经在理论和应用上取得
随着互联网技术的飞速发展,通过搜索引擎或者Web网络来获取信息,已经发展成为人们工作和生活的习惯。由于用户查询通常仅仅由若干个单词组成,导致查询不能清晰准确的表达用户
信息粒和粒计算是近几年国际上发展较迅速的一个学科,它在许多方面都有其特别的理论意义和应用价值。 本文详细分析研究了粒计算的基本理论与技术,并将其应用于模式识别特别
如今,数据空间中的信息呈现出多元化和高速化发展趋势,人们关注的焦点不再是信息的来源,而是获取信息的方式。但是,由于数据信息的海量性、异构性和分布性等特点,如何快速、
SAT问题是计算科学中最基础的问题之一,大部分组合逻辑问题都可以归约求解SAT问题上面来,是非常具有理论研究价值和实际应用潜力的问题。对于一个布尔公式,如果存在一组变量
信息产业的发展,把我们带入了一个数字化时代。大量的数字化信息在给人们带来方便的同时,也带来了一系列问题,比如敏感信息可能轻易地被窃取、篡改、非法复制和传播等等。因此必