论文部分内容阅读
随着Web的不断发展和数据量的增加,Web用户越来越依靠搜索引擎来检索信息。搜索引擎用户的行为分析表明不仅需要对结果进行排序,也需要为用户构造新查询提供帮助和提示。Web社区可以为组织之间的合作和交流提供一个环境,针对社区建立的搜索引擎可以提高社区用户检索信息的效率。本文的主要工作是利用文本聚类重新组织搜索结果以提高Web社区信息检索效率,并且利用聚类验证评估了文本聚类算法的性能。论文在研究Web搜索引擎现有技术的基础上,分析了Web社区网站内容的特点,指出只对结果进行排序的搜索技术在搜索结果较多的情况下不足以提供高效的检索。考虑到Web社区网站内容存在初步的分类体系和具有自组织的特点,利用文本聚类的方法对搜索结果进行重新组织,能够提高搜索结果的浏览效率,并且能够为Web用户构造新查询提供帮助和提示。在研究文本聚类的一般过程的基础上,论文深入分析了层次式,k-平均,基于蚁群智能和后缀树四种典型的聚类算法,提出用聚类验证评估文本聚类算法性能。分析了聚类验证的外部标准、内部标准和基于信息熵标准,选择外部测试标准,利用标准的分类测试集合Reuters-21578文本集合对k-平均、基于蚁群智能和后缀树聚类算法进行了聚类验证。实验结果表明后缀树聚类算法由于在特征选择方面充分的考虑了文本特性,引入短语特征而产生了较好的效果。论文工作基于Web抓取器、Lucene全文索引部件构建了国家重点实验室(Chinalab)社区的搜索引擎系统,并且实现了按搜索结果出现位置分组的功能。对Chinalab社区搜索的性能分析表明系统能够满足Web社区内的信息检索要求。论文工作还实现了搜索结果的聚类,并且对搜索结果聚类进行了初步的性能评估。系统性能评估表明搜索结果聚类提供了新的用户界面,能够为用户构造新的查询提供帮助和提示,提高了Web社区内信息检索的性能。