论文部分内容阅读
随着互联网信息的日益增长,如何迅速准确地在互联网中找到所需要的信息显得日益重要,传统的通过搜索引擎系统解决了大范围领域内的搜索,但在面对高准确度高主题化的专业主题搜索时不能较好地满足用户的需求,而面向主题的垂直搜索引擎很好地完成了这一需求,能面对特定人群提供准、快、全的专业性搜索解决方案。在这种形势下,推广和发展面向主题的垂直搜索引擎系统是十分有必要的。
本文首先追溯了搜索引擎系统的发展历史,对搜索引擎的架构和工作原理进行了分析和总结,进而对比了通用搜索引擎和垂直搜索引擎在结构和模块组织上的不同。接着又深入分析和研究了涉及搜索领域核心问题的技术实现,借助概率学、几何学的模型和算法来解决这些核心技术的实现过程中所遇到的问题。
本文着重阐述了爬虫系统的设计和实现,并对设计过程中运用的具有创新性和贡献性的算法和机制进行了详细的陈述。然后又介绍了索引系统,中文分词和数据库系统的具体设计与实现。
最后,本文对整个系统进行了运行和测试,通过测试结果对相关的性能评价指标如:爬虫的运行性能,网页的准确率等进行分析。通过对结果的分析和比较,我们证明了本文所实现系统的稳定性和高效性。
在文章最后的总结和展望一章中,对本论文所作的主要工作进行了总结,并针对一些问题作出了下一步的展望。