论文部分内容阅读
近年来,伴随着互联网技术的快速发展,网络数据出现了爆发式的增长趋势,信息过载问题日益突出。为了让用户能够快速有效地获取自身所需信息,也为了使企业从海量信息中有效地挖掘出用户的兴趣偏好,推荐算法应运而生。传统的单一推荐算法在一定程度上实现了个性化推荐或社会化推荐,但依然面临着冷启动、数据稀疏性和大规模数据集下的系统可扩展性等问题;以Hadoop和Spark为代表的分布式处理平台不仅能最优化地使用各个计算机结点的存储、计算资源,而且能够在保持高可靠性、高可用性、数据一致性的同时实现并行计算,为大规模数据集的处理提供新的解决方案。立足于推荐算法的发展现状,本课题将多种单一推荐算法在不同层次进行组合,设计出组合推荐算法:采用中组合的策略,将基于内容的推荐和基于协同过滤的推荐进行组合,设计出基于用户的中组合推荐和基于物品的中组合推荐,分别解决了用户冷启动问题和物品冷启动问题;采用后组合的策略,将两种中组合推荐算法进行组合,设计出基于用户-物品的后组合推荐,同时解决用户冷启动问题和物品冷启动问题,并保持协同过滤推荐的个性化、社会化特点;采用级联型组合的策略,将基于用户-物品的后组合推荐和基于交替最小二乘法的推荐进行组合,设计出基于交替最小二乘法的级联型组合推荐,解决了数据稀疏性问题,并提升推荐精度。最后,将所设计的组合推荐算法部署在分布式处理平台,以适应大规模数据集的处理。本课题的创新点如下:1)提出了一种基于误差的矩阵动态线性加权法,根据单一推荐算法的评分预测误差计算加权系数,进而最优化地解决冷启动问题;2)提出了一种基于填充的数据稀疏性解决方案,用初步的评分预测结果对原始数据中的缺失值进行填充。测试结果表明,本课题所设计的组合推荐算法能有效解决用户冷启动问题、物品冷启动问题和数据稀疏性问题,并提升推荐精度;部署到分布式处理平台,具备了可扩展性。