论文部分内容阅读
因特网的快速发展带动了时代的变迁。Web资源中蕴含着大量有价值的信息,作为一种新的资源,已经变得越来越重要。Web挖掘研究的主要任务就是如何从这么多的Web信息中高效地获取所需知识。然而,传统的通用搜索引擎对整个互联网缺乏针对性,搜索会造成大量无关的链接和信息,使得所得的结果效用低下。在这种情况下,面向特定领域的主题搜索引擎便应运而生,它很好地解决了通用搜索引擎存在的弊端,其核心就是主题网页抓取技术。对于该技术的研究已经成为了当前的热点和发展趋势。本文首先简单介绍了Web挖掘技术和搜索引擎技术的研究背景及国内外发展现状,分析了两者之间存在的共同点,并为这两者技术上的相互结合做了一定的可行性分析。然后介绍了主题搜索引擎的发展状况和重要作用,并主要以主题搜索引擎的主题网页抓取策略作为研究内容,把提高主题网页抓取的查全率和查准率作为出发点,详细分析了现有的主题网页抓取方法及其优缺点。接着从主题搜索爬虫的Best-First搜索算法中所存在的缺点着手,结合非贪婪策略等方法对算法进行了进一步优化,并用实验证明了新算法的优异性;最后设计并实现了一个主题Web挖掘系统原型,给出主题网络爬虫类的构成,设定的队列,数据库的设计等,并对整个系统性能进行了测试。