论文部分内容阅读
随着计算机和网络技术的迅速发展,互联网上的教育资源呈指数级增长。如何能够在这数量巨大、形式多样的信息中准确地找到自己需要的呢?通用搜索引擎在针对某一具体领域检索资源时,搜索结果往往覆盖面非常广泛,信息相关性差,不能很好地为用户提供准确的检索服务。而垂直搜索引擎则是针对某一个行业、某一特定人群需求所设计的专业搜索引擎,它只搜索特定领域,并且可以对搜索结果按照该领域内人们所关心的关键信息予以呈现,这样能够为用户提供更高质量的检索服务。本文使用Lucene和其它相关技术实现一个教育领域内的专业垂直搜索引擎。它主要包括以下六个方面:(1)按照教育资源元数据规范、元数据提取的难易程度以及学习者需求确定搜索结果的元数据;(2)支持网络上常见的各种文档的全文检索;(3)比较并分析当下流行的中文分词工具包,并从中选择适合Lucene、分词准确率较高、系统消耗比较合理的分词工具;(4)针对教育资源的特殊性,改进Lucene的排序算法,增加了发布者、资源的评分和浏览次数三个权重,使排序结果更加合理。(5)过滤搜索结果,用户可按照特定需求选择特定发布人或者发布时间的资源。(6)合理的搜索界面的设计。该搜索引擎可以基本满足教学平台上的用户需求,具有检索资源多样化、中文分词性能优越、排序算法合理等优点。