论文部分内容阅读
针对中国Web的高效增量搜集,设计试验考察了网页的短期变化规律,估算出增量搜集需要的最小搜集能力.提出一个通用的增量式搜集系统模型和它的性能准则,该模型阐明了增量搜集的运行原理.针对该模型,结合北大天网增量搜集系统的开发经验,讨论了它的性能瓶颈并给出解决方案.对增量搜集的两类目标--变化网页和新网页,探讨了相应的搜集策略.介绍了该模型的实现和性能状况.该文的工作为增量搜集系统的设计和实现提供了一个成功的模型。