论文部分内容阅读
随着大数据时代的到来和发展,互联网上的信息呈现爆炸式的增长,如何从海量信息中快速准确地获得我们想要的信息变得十分困难,这就是信息过载问题。为了解决信息过载问题,推荐系统应运而生。推荐系统的核心是推荐算法,推荐算法有很多种,其中一种是将图模型和物理学中热传导相结合的基于二分网络的热传导推荐算法。由于该算法结合方式新颖,推荐结果多样性好而广受关注。然而,该算法的推荐准确率低,本文分析了造成这种结果的原因,并提出了相应的改进,主要工作如下: (1)提出了基于二分网络的非均衡初始资源设置的热传导推荐算法。在基于二分网络的热传导算法中,首先要初始化项目的资源值,每个项目的初始资源值代表该项目的推荐能力。原始算法中,将所有的评分大于等于阈值的项目的初始资源“一视同仁”地设置成了1,忽略了项目自己的“个性”。为了改善这个问题,我们引入了一个调节参数,改变了初始资源的设置方法,并在不同数据集上进行了相关实验。实验表明,改进后的算法有效地改善了原有算法的推荐准确度。 (2)提出了基于项目相似度和二分网络的热传导混合推荐算法,用以改善数据稀疏性对推荐结果的影响。我们知道,当数据集较稠密时,数据中所携带的信息就比较丰富,推荐算法的结果就越准确。反之,如果数据集很稀疏,可用的信息就比较少,推荐结果的准确率势必会受到影响。因此,我们从改善数据集密度入手,提高推荐结果的准确度。首先找出目标用户评分最高的项目,然后根据余弦相似度计算评分最高的项目与目标用户未标记项目之间的相似度,选出相似度较高的若干项目组成最近邻居集合。最后,将最近邻居集合中的项目视为目标用户标记过的项目,对数据集进行填充,提高数据集的密度。在此基础上,应用基于二分网络的热传导的推荐算法为用户推荐项目。 (3)提出了基于关联规则和二分网络的热传导混合推荐算法。该算法意在解决数据稀疏性对推荐结果的影响。该方法首先利用关联规则挖掘算法寻找目标用户评分最高项目的最近邻居集合,然后将最近邻居集合中的项目视为目标用户标记过的项目,对数据集进行填充,提高数据集的密度,在此基础上,应用基于二分网络的热传导的推荐算法为用户推荐项目。 本文得到如下基金资助:教育部新世纪优秀人才支持计划:(NCET-12-0920);陕西省科技新星计划:(No.2014KJXX-45);国家自然科学基金:(Nos.61272279,61371201,61272282和61203303)和“111”创新引智计划(No. B07048)。