基于查询词聚类的信息检索系统排序模型

来源 :天津大学 | 被引量 : 0次 | 上传用户:zhouqidhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网信息的急速膨胀,人们需要在以几何速度增长的冗繁信息中寻找自己所需要的信息。搜索引擎逐渐成为人们日常生活中网络搜索的必备工具,而且用户越来越关注网络搜索引擎的搜索性能和反馈结果。为了提高信息检索系统的整体性能,研究者需要完善和研究信息检索系统的评价方法和排序模型,使得信息检索系统反馈给用户文档更为相关。排序学习理论(Learning to Rank,LETOR)是结合信息检索技术和机器学习理论的一种新领域。LETOR理论目的是利用机器学习理论通过对训练集的自我学习,建立一个文档集相关度的排序模型。目前存在的几种信息检索系统排序方法都采用单一训练模型,其排序结果在几种传统的评估准则下表现出的性能还有待提高。针对这个问题,本文提出一种基于伪相关反馈扩展的查询词聚类算法,和基于查询词关键字的聚类算法相比,能够更好地解决查询词的简短性和模糊性影响聚类效果的问题。该算法可以获得更加可靠的查询词之间的潜在联系,基于这种潜在联系,本文进而提出一种新颖的基于查询词聚类的信息检索系统排序模型,并对查询词采用分而治之的训练方法,其要点是将查询词分为多个训练模型分别进行排序学习。使用该排序模型在OHSUMED公开数据集上做了四种模型的实验,结果表明,这种分而治之的信息检索排序模型显著地提高了信息检索系统的反馈性能,较基本的排序算法在Precision@K和nDCG@K的评价指标上有了近5%-10%的提高。
其他文献
最近几年,服务全球化和服务外包发展迅速,已经日益成为全球化的主导力量和重要内容。同时,国内服务业发展和开放也受到更多重视。金融外包已成为国际外包市场的主流。随着中
蒸发式冷凝器具有节水、节能、结构紧凑等特点而在工业制冷等领域得到了广泛应用。而水垢是降低蒸发式冷凝器换热效率和影响其平稳运行的最大天敌。为保证蒸发式冷凝器高效和
教学分析课标要求:运用实例说明加强国际经济合作的重要性。学习目标:通过“一带一路”学习资料,认识不同区域经济发展水平存在差异。知道国际经济合作的主要方式,理解并能举
随着交通系统网络不断完善,需要在极端环境下进行沥青混凝土路面的施工,外界温度的变化,特别是在低温环境下,会对施工质量及后期使用安全和沥青混凝土路面的使用年限造成巨大
本文报告1例合并角膜厚度增加,伴先天性心脏病及并发性角膜内皮损害的Weill-Marchesani综合征(WMS)病例,并结合复习文献,对本病的发病机制、临床特征及诊治要点作一归纳介绍。患者
当前社会青少年心理健康问题已引起社会的广泛关注,心理健康教育已成为国家层面主导的活动。这些现实说明了心理健康对一个人乃至整个社会的重要性。心理健康教育不能成为事后
尽管目前临床上用于治疗哮喘的药物有许多种,但这些药物对部分患者的疗效却很差。有证据表明这种个体差异与个人的基因差异密切相关。本文主要针对临床上常用的治疗哮喘的药
偶氮染料是合成染料的最大组成部分,在印染、食品、造纸和化妆品等行业大量应用,因此它们也大量的排放于这些废水中。水体的偶氮染料污染不仅会引起环境美学的问题,而且对水
在本木植物内源激素含量检测中,高效液相色谱法得到了广泛应用和推广,发挥着不可比拟的作用,可以将高效液相色谱法的重复性和迅速性等特点充分发挥出来,这已经得到了诸多相关
本文选取中国上市石油、天然气公司30家为研究对象,采用数据包络分析(DEA)方法分析企业经营效率。多投入、多产出从技术效率、纯技术效率和规模效率等方面对经营效率进行评价