论文部分内容阅读
在信息检索中,系统需要根据用户查询将文档按照相似度大小进行排序,吸引了众多信息检索和机器学习领域研究者的眼球,并形成了诸多排序算法模型。然而并未考虑到查询短语与文档构成的特征对与用户相关反馈之间存在的同质性。在机器学习算法基础上,通过提取训练样本的主要特征进行有效聚类,并结合用户的相关反馈获取各个类中相关度判断的置信值,形成相似度判定模型,应用该模型来对测试样本进行相关度排序。算法对LETOR数据集进行了测试,实验表明,信息检索性能指标比其他排序算法有了进一步提高,并且无需复杂的数据预处理工作和手动设定算