基于Spark的推荐系统的研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:haisheng1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的高速发展,有海量的信息数据产生,怎么能够从纷繁复杂的信息中,获取有价值的数据是一个亟待解决的问题。推荐系统是解决这一问题的有效方法之一,推荐系统是一种从用户的历史行为以及喜好信息中给目标用户推荐产品的应用,广泛地应用于电子商务、视频音乐门户网站等多个邻域。然而依然存在数据稀疏性、冷启动、系统预测准确率不理想的问题。特别是随着用户数以及物品数不断增加,基于单机的传统推荐算法遇到不可扩展性的瓶颈,很难满足当今的商业需求,而结合分布式计算平台的并行化实现为解决这个问题提供了新的思路。Spark是一种新型的基于内存的通用并行化大数据计算引擎,由于其迭代并行化的计算优势,在大数据处理方面得到广泛的关注,本文主要研究了基于邻域和基于模型的推荐算法,针对其稀疏性、冷启动及预测准确率不理想的问题,进行算法改进,并将其在Spark集群上并行化设计与实现优化算法。具体的研究的方面如下:(1)针对基于用户的协同过滤算法存在的评分数据稀疏情况下推荐预测准确率不理想的问题,引入了用户属性特征相似度。本文在计算用户相似度时,组合了用户属性特征相似度和用户协同过滤相似度,以此来缓解评分数据稀疏性对计算用户相似度的影响。并在Spark平台实现了优化后的算法,通过实验结果分析,优化的基于用户的协同过滤算法,提高了推荐预测准确率,也改善了算法的执行效率。(2)针对基于物品的协同过滤算法存在冷启动情况下预测准确率不理想的问题,引入了物品属性特征相似度。本文在计算物品相似度度时,组合了物品属性特征相似度和评分数据相似度,以此来降低冷启动问题对物品相似度计算的负面影响。并在Spark平台并行化设计和实现了优化的算法,通过实验结果分析,优化的基于物品的协同过滤算法提高了系统预测准确率。(3)针对基于ALS模型的推荐算法,本文设计了一种新的目标函数,融合了模型训练前的用户及物品相似性信息。并在Spark平台并行化设计和实现了基于ALS模型的推荐算法,同过实验结果分析,新的模型目标函数下,有较好的预测准确率,也提高了算法的执行效率。
其他文献
在当今时代,由于温室效应不断增强,能源耗费越来越大,已有的不可再生能源马上面临供不应求的局面,世界各国为了缓解气候和能源的危机,已经达成共识——大力发展新能源汽车产
大数据时代随着信息技术的进步而出现并发展,传统会计作为一个与数据有着密切联系的行业,必将受到较为深远的影响。在分析大数据对会计各方面的冲击基础上,总结大数据时代对
公司治理结构是指用来协调现代公司制度下公司内部不同利益相关者之间的利益和行为的一系列法律、文化、习惯和制度的统称。完善的公司治理结构对会计信息披露的影响有着积极
幼儿教育是学校教育的重要组成部分,是基础教育的基础。幼儿教育对人的发展和国民素质的提高有着极其重要的奠基作用。全面实施素质教育,必须从幼儿教育抓起。而音乐素养是幼
<正>学了反比例函数后,利用反比例函数的相关性质,解决一些求图形面积的问题是这一部分考查的重点.利用反比例函数探索图形面积的定值问题是解决这类题的基础,本文将与之相关
高校传统的思想政治教育较为注重"泛政治化教育",在教育中缺少对学生的人文关怀和心理疏导,服务育人的角色定位不明确,教育的宏观目标过于理想化,教育的价值取向趋于单一化。
能源是现代经济增长的必要支撑,但是在理论上,能源与经济增长的关系并不明确。本文采用向量误差修正模型结合结构突变分析,实证检验基于生产函数的能源消费与中国经济增长的
落花是中国古典诗词的常见意象。它代表着一种"正在消亡中的美",凝聚着诗人的生命意识和审美体验,寄托着人们无法释怀的悲情。
学习者和媒体界面之间的操作性交互是实现高层次教学交互的基础,教学系统界面的交互性是提高学习者操作性交互水平的关键。本文以系统方法为指导,提出了交互界面的设计流程,
B·罗宾逊女士,一位关心社会弱势群体教育问题的教育专家,联合国教科文组织的项目执行官,在远程教育和学习支持服务方面享有很高的威望,她时常关心着中国的远程教育事业。今