基于文本聚类搜索引擎查询扩展算法的研究与实现

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:shabi12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的出现使得信息不断激增,搜索引擎给人们提供了一种从海量信息中定位信息的有效工具。然而信息增长的速度超乎人们的想象,在信息爆炸面前,传统的通用搜索引擎查询方式已不能继续满足人们的需求,如何有效组织浩瀚汪洋中的多样化信息并以合理有效的方式提供给用户是搜索引擎面临的巨大挑战。数据挖掘、模式识别、语义网、本体、查询扩展等技术在搜索引擎领域大显身手,被人们广泛的应用以解决搜索引擎面临的挑战和问题。本文首先介绍了搜索引擎的发展,国内外的研究现状,传统全文检索搜索引擎的基本原理及存在的问题。之后阐述了本文的研究重点查询扩展的发展及趋势。接着从聚类算法选取策略、扩展词选取策略、相似度计算方法等方面详细介绍了本文提出的基于文本聚类搜索引擎的查询扩展算法,该算法结合本文实现的文本聚类搜索引擎系统的实际应用做了一些改进,针对基于文本聚类搜索引擎存在的深入查询问题提供了一种解决方案。然后介绍了本文实现的文本聚类搜索引擎原型系统的模块设计及数据库设计,并通过实验验证了本文提出的查询扩展算法的有效性。
其他文献
心电图(ECG)记录着一个心脏的电活动,是与心脏搏动相关的电位变化图。心电图在诊断各种心血管疾病诸如冠状动脉疾病、心肌缺血、损伤和梗死等疾病时具有特别重要的意义。本文
中国煤炭企业的安全生产问题面临着严峻的挑战,物联网的广泛应用,提供了对煤矿安全进行实时监控的可行方案。本文通过对物联网应用以及煤矿信息监控需求的调研,提出了基于物