论文部分内容阅读
随着互联网和信息技术的高速发展,有海量的信息数据产生,怎么能够从纷繁复杂的信息中,获取有价值的数据是一个亟待解决的问题。推荐系统是解决这一问题的有效方法之一,推荐系统是一种从用户的历史行为以及喜好信息中给目标用户推荐产品的应用,广泛地应用于电子商务、视频音乐门户网站等多个邻域。然而依然存在数据稀疏性、冷启动、系统预测准确率不理想的问题。特别是随着用户数以及物品数不断增加,基于单机的传统推荐算法遇到不可扩展性的瓶颈,很难满足当今的商业需求,而结合分布式计算平台的并行化实现为解决这个问题提供了新的思路。Spark是一种新型的基于内存的通用并行化大数据计算引擎,由于其迭代并行化的计算优势,在大数据处理方面得到广泛的关注,本文主要研究了基于邻域和基于模型的推荐算法,针对其稀疏性、冷启动及预测准确率不理想的问题,进行算法改进,并将其在Spark集群上并行化设计与实现优化算法。具体的研究的方面如下:(1)针对基于用户的协同过滤算法存在的评分数据稀疏情况下推荐预测准确率不理想的问题,引入了用户属性特征相似度。本文在计算用户相似度时,组合了用户属性特征相似度和用户协同过滤相似度,以此来缓解评分数据稀疏性对计算用户相似度的影响。并在Spark平台实现了优化后的算法,通过实验结果分析,优化的基于用户的协同过滤算法,提高了推荐预测准确率,也改善了算法的执行效率。(2)针对基于物品的协同过滤算法存在冷启动情况下预测准确率不理想的问题,引入了物品属性特征相似度。本文在计算物品相似度度时,组合了物品属性特征相似度和评分数据相似度,以此来降低冷启动问题对物品相似度计算的负面影响。并在Spark平台并行化设计和实现了优化的算法,通过实验结果分析,优化的基于物品的协同过滤算法提高了系统预测准确率。(3)针对基于ALS模型的推荐算法,本文设计了一种新的目标函数,融合了模型训练前的用户及物品相似性信息。并在Spark平台并行化设计和实现了基于ALS模型的推荐算法,同过实验结果分析,新的模型目标函数下,有较好的预测准确率,也提高了算法的执行效率。