论文部分内容阅读
当今,随着互联网的广泛普及,人们广泛应用的搜索引擎更是快速更新。传统的搜索引擎很难适应人们的个性化需求。传统搜索引擎提供的服务是基于检索的,不同用户在搜索索同一检索词时会返回同样的结果,不同时期的同一用户搜索同一检索词时,也返回相同的结果,并没有考虑到用户需求变化。目前,个性化检索虽然有很多研究,但个性化搜索在中文期刊搜索中的应用还是少之又少。在这样的前提下本文的研究课题应运而生。论文以当前搜索引擎的发展现状为基础,个性化检索技术为背景,分析了中文学术搜索引擎的发展现状,总结出目前对于中文期刊个性化搜索引擎的需求。将用户兴趣信息添加到学术期刊搜索中,实现基于用户兴趣的个性化信息检索。本文根据个性化检索的研究现状和现有检索平台数据特点,确定了相关的技术研究方案。在建立索引和全文检索的基础上,应用基于LDA文本聚类技术,获取论文兴趣模型和用户兴趣模型,结合用户个性化的需求,建立一种基于用户兴趣的个性化检索系统。系统总体分为基于Lucene的搜索引擎设计和个性化搜索设计两大部分。基于Lucene的搜索引擎设计采用Lucene全文信息检索工具包,结合Java语言实现普通常规搜索引擎的设计。个性化搜索设计,首先应用基于LDA文本聚类对论文进行聚类分析得到论文概率模型和作者兴趣模型,将论文概率模型添加到索引库中。用户兴趣模型建立之后,根据建立的用户兴趣数据库,进行检索结果的个性化排序。经过实际的测试,证明了本系统实现了基于Lucene的中文期刊搜索引擎,用户可以进行普通检索,在线浏览及下载期刊文献。建立用户兴趣模型,并实现了中文期刊的个性化检索,根据用户兴趣度,返回个性化的检索结果。根据系统需求和搜索引擎技术评价标准,设计系统测试用例,对测试结果进行分析,验证系统达到了既定标准。