论文部分内容阅读
随着互联网技术的迅速发展和日益普及,人们越来越多得选择通过互联网获取信息的方式,比如使用门户网站或手机应用获取新闻信息、网上购物等。伴随着各类信息网站和移动应用的增加,互联网上的信息正在以爆炸式的方式增长,这些信息一方面满足人们对智能化生活的需求,另一方面严重的信息过载问题困扰着人们做出符合自己需求的选择。推荐系统作为解决信息过载的有效方法,它能够主动地为人们推送他们可能感兴趣的信息,节省人们在信息筛选上花费的时间。推荐算法作为推荐系统的核心,它决定了推荐系统的推荐结果准确性。为了有效提高推荐系统的准确性,本文提出一种基于Spark并行框架的推荐系统,它是一种以基于GBDT混合推荐算法为基础的Spark并行推荐系统。本论文的主要研究内容包括:1)基于协同过滤的推荐算法的验证:对传统的协同过滤算法进行验证,分析不同协同过滤算法的原理,对比并总结不同协同过滤算法的优缺点和适用场景。2)基于GBDT的混合推荐算法:根据传统的协同过滤算法的优点与不足,本文提出采用一种基于GBDT的混合推荐算法以克服传统协同过滤算法的缺点,提升推荐算法的推荐准确率。对比其他模型集成策略,如线性加权、融合、随机森林等集成算法,阐述基于GBDT的混合推荐算法的优势。3)基于Spark并行架构的推荐系统:利用Spark的高性能和易用性,实现基于Spark并行框架的推荐系统,用于提升基于GBDT的混合推荐算法的执行效率和解决海量用户数据下基于GBDT的混合推荐算法面临的性能瓶颈等问题。实验结果表明,本文提出的基于Spark并行框架的推荐系统可以高效准确的为用户推荐信息。一方面采用基于GBDT的混合推荐算法可以有效的提高推荐算法的准确率,另一方面采用Spark并行框架实现的推荐系统可以提高算法在海量数据下的运行速度和并发性能。