论文部分内容阅读
基于协同过滤的推荐系统是解决信息过载问题的一种很好的方案,而且能够提供一对一的个性化服务。但是基于协同过滤的推荐算法同样也而临着一系列的瓶颈问题,如数据稀疏性问题,可扩展性问题,冷启动问题等。其中对于协同过滤算法的性能影响最大的因素之一是数据稀疏性问题。推荐系统中存在着大量的项目,而每个用户只对其中很少一部分项目进行了评分,从而导致评分数据的极度稀疏,而由于评分数据的稀疏给最近邻居的准确选取增加了难度,从而导致推荐的不准确。其次,协同过滤算法一般的应用的场景都需要处理海量的数据,并且数据会快速的动态增长,因此,算法的可扩展性也是协同过滤算法面临的一个问题。 本研究主要内容包括:⑴从相似度计算的角度出发,分析传统相似性度量方法存在的弊端,综合用户的评分行为和项目属性相似度,提出一种改进的相似度计算方法。实验结果表明,该相似度计算算法能够有效提高相似度计算的准确性。⑵从缓解稀疏评分矩阵的角度出发,分析数据稀疏性对推荐准确度的影响,提出了基于改进相似度计算法方法进行预测评分,进而使用该评分填充空缺值的矩阵预填充方法,以降低数据集的稀疏性。在填充后的评分矩阵上采用基于用户的协同过滤算法来产生推荐。实验结果表明,该算法可以在一定程度上有效的改善因数据稀疏性而带来的最近邻搜寻不准确的问题,提高推荐系统的准确度。⑶从协同过滤算法的可扩展性角度出发,分析基于改进相似度计算方法的协同过滤算法中关键步骤的MapReduce实现原理,进而在Hadoop平台上实现基于改进算法的协同过滤推荐系统的简单模型。实验结果表明该算法的分布式实现的可行性,从而解决了算法的可扩展性问题。