论文部分内容阅读
随着互联网信息的持续爆炸性增长,通用搜索引擎的信息覆盖率和检索精度都在不断下降,发展主题搜索引擎已经成为趋势。由于主题搜索引擎搜索的内容只限于特定主题或专门领域,被通用搜索引擎所广泛采用的基于图的遍历搜索策略(如广度或深度优先算法)已不再适用,因此,以何种策略访问Web(即主题爬行策略)已成为近年来主题搜索引擎研究的关键问题之一。
本文从提高主题爬虫的搜索效率和搜索精度出发,在以下四个方面对主题搜索引擎的爬行策略进行了较为深入的研究。
首先,本文基于现阶段国内外网络爬虫的研究进展,在分析和比较现有主题网络爬虫搜索策略的优缺点的基础上,探讨了网络爬虫主题价值预测的准确性、重要性及主题网络资源覆盖度的搜索策略,以提高主题爬虫的自适应性和搜索效率。
其次,为了提高网络爬虫预测链接价值的准确性,本文提出了Shark改进算法,其主要思想是:通过改进Shark算法来提高搜索相关网页的能力以及降低优先排序空间复杂度和时间复杂度,提高搜索效率、节约大量时间和资源。
再次,为了提高网络爬虫的自适应性,本文针对传统网络爬虫存在的价值评价标准单一的问题,提出了一种基于综合价值的综合爬行策略,此策略根据不同的搜索阶段选择采用符合实际情况的最优搜索策略。
最后,本研究采用改进的Shark算法和自行设计的综合爬行策略相结合,实现了一个基于多种搜索策略的主题搜索引擎网络爬虫系统原型。本系统综合了网页的相关性和重要性两方面的需要,不仅能够准确、自动地爬行到主题相关网页,从而提高信息搜索的效率,而且还可节约网络带宽,具有良好的稳定性。另外,本系统URL的优先级侧重点是可调和,具有很强的灵活性。