论文部分内容阅读
互联网的出现使得信息不断激增,搜索引擎给人们提供了一种从海量信息中定位信息的有效工具。然而信息增长的速度超乎人们的想象,在信息爆炸面前,传统的通用搜索引擎查询方式已不能继续满足人们的需求,如何有效组织浩瀚汪洋中的多样化信息并以合理有效的方式提供给用户是搜索引擎面临的巨大挑战。数据挖掘、模式识别、语义网、本体、查询扩展等技术在搜索引擎领域大显身手,被人们广泛的应用以解决搜索引擎面临的挑战和问题。本文首先介绍了搜索引擎的发展,国内外的研究现状,传统全文检索搜索引擎的基本原理及存在的问题。之后阐述了本文的研究重点查询扩展的发展及趋势。接着从聚类算法选取策略、扩展词选取策略、相似度计算方法等方面详细介绍了本文提出的基于文本聚类搜索引擎的查询扩展算法,该算法结合本文实现的文本聚类搜索引擎系统的实际应用做了一些改进,针对基于文本聚类搜索引擎存在的深入查询问题提供了一种解决方案。然后介绍了本文实现的文本聚类搜索引擎原型系统的模块设计及数据库设计,并通过实验验证了本文提出的查询扩展算法的有效性。