论文部分内容阅读
随着互联网和信息技术的快速发展,互联网为用户提供了越来越多的信息和服务,但是面对互联网中成指数增长的信息资源,用户不得不花费大量的时间来寻找对自己有用的信息,即所谓的信息超载问题。为了解决这一问题推荐系统应运而生,推荐系统能够根据用户的偏好为用户提供个性化的推荐服务。当前,协同过滤算法是应用最广泛、最成功的推荐技术,但是协同过滤算法也面临着严重的数据稀疏性、扩展性和冷启动等问题。数据稀疏性问题是协同过滤算法面临的关键的问题之一,评分数据的高稀疏性往往会导致协同过滤算法的预测精度低下。因此,数据稀疏性问题的解决对提高协同过滤算法的预测精度具有重要意义。近年来,随着社交网络的流行,社交关系变的越来越重要,在社交网络中好友的观点或者意见往往会影响我们的决定,因此利用社交网络中的社交关系有助于解决数据稀疏性问题。当前,深度学习在众多领域取得了重大的突破,而受限玻尔兹曼机模型(Restricted Boltzmann Machine,简记为RBM)作为深度学习领域最重要的模型之一,受到了越来越多的关注。受限玻尔兹曼机模型被用于解决推荐问题后,取得了良好的效果。目前用于推荐的RBM模型存在一定的缺陷:第一,需要将实值的评分数据转化为一个K维的0-1向量,这将使模型中参数的数量变为原来的K倍,从而造成参数过多、训练过程复杂。同时,此种转化方法只对整型数据有效,如果评分数据中有Double型的数据就无法转化;第二,模型训练过程中仅使用用户评分数据,但用户评分数据存在着严重的数据稀疏性问题,这将在一定程度上影响模型的推荐效果。第三,当前正处于一个大数据时代,在大数据环境下由于RBM模型具有大量的参数,模型的训练将面临巨大挑战。因此,本文针对基于受限玻尔兹曼机模型的协同过滤算法进行了相关研究,主要工作包括:(1)在现有的用于推荐的RBM模型的基础上,提出了基于实值的条件受限玻尔兹曼机(Real-Valued Conditional Restricted Boltzmann Machine, R CRBM)模型,此模型不需要将评分数据转化为一个K维的0-1向量,并且RCRBM模型在训练过程中使用训练数据中潜在的评分/未评分信息,实验结果表明潜在的评分/未评分信息有助于缓解数据稀疏性问题。(2)将本文提出的RCRBM模型与用户的社交关系相结合,提出了基于MoleTrust推理的最近信任好友(Nearest Trusted Friends MoleTrust, NTFMT) R_CRBM算法,该算法利用社交网络中的信任关系。在百度数据集和Epinions数据集上的实验结果表明提出的R_CRBM_NTFMT算法可以很好的解决数据稀疏性问题,提高了推荐系统的预测精度,并且在训练数据越稀疏的情况下效果提升的越多。(3)在大数据环境下,由于数据量巨大,普通平台无法处理大数据问题并且此时R_CRBM模型的参数数量将变的极其巨大对R CRBM模型的训练将面临巨大的挑战,因此,针对大数据下的R CRBM模型,本文提出了基于Spark的并行化方案,实验结果表明该方案具有良好的扩展性,可以较好的解决大数据问题。