基于Spark大数据处理的协同过滤推荐系统研究与实现

来源 :兰州大学 | 被引量 : 5次 | 上传用户：wyhai

【摘要】

：

现代社会信息越来越庞杂,人们生活在一个信息过载的时代,通过某种方式为用户过滤掉无用信息是研究者不断追求的目标。推荐系统就是用来满足用户需求或者服务的系统,它能够满

【作者】

：

王娜

【出处】

：

兰州大学

【发表日期】

：

2017年01期

【关键词】

：

Spark大数据协同过滤算法语义分析数据清洗推荐系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现代社会信息越来越庞杂,人们生活在一个信息过载的时代,通过某种方式为用户过滤掉无用信息是研究者不断追求的目标。推荐系统就是用来满足用户需求或者服务的系统,它能够满足用户个性化的需求,在用户获取和查询信息中占据着重要的地位。但是推荐系统在发展过程中,也存在一系列的难题需要解决,例如业务调整频繁,系统响应速度慢,推荐结果准确度低下以及海量数据的处理与分析时较慢等问题。为了解决以上问题,需要对推荐系统不断的研究改进。一个良好的个性化推荐系统一方面需要拥有较好的扩展性,能够随着业务需求的不断变化对系统进行调整和更新;另一方面还需要采用大数据处理相关技术来解决推荐过程的效率问题。目前Hadoop及Spark分布式处理平台是解决大数据处理的重要方案,通过分布式的计算与处理实现对海量数据的管理与分析,本文的研究正是基于这些方案。推荐系统现在面临的主要问题是数据的稀疏性,它也是导致推荐系统结果不准确的重要原因。随着数据量的不断增加,对于数据的处理过程也变得更为复杂。为了更加有效地解决以上问题,本文设计并完成了一种基于Spark框架的推荐系统。在文中对本系统的总体结构和具体算法进行了介绍,并对不同算法的优势和缺点进行了分析,最终选择了基于用户偏好实现个性化推荐的方法。论文首先描述了课题研究的背景及国内外研究现状,并分析了论文的主要内容;随后分析了协同过滤算法的相关情况和Spark大数据处理框架的相关技术;课题分别从相似度传递和语义分析算法两方面来改善推荐效果;为了做到“实时”推荐,提升推荐速度,采用了Spark大数据处理技术;在分析设计相关算法之后,本文的系统设计从系统总体框架、推荐引擎总体框架和推荐引擎设计三个部分予以分析设计实现;为了证明推荐算法的有效性,文中进行了大量的试验和测试。最后实现了一个利用本文算法的电影网站。实验表明,本文的协同过滤推荐算法具有良好的推荐效果,由于采用了Spark大数据处理框架,速度优势明显,此外本课题的推荐引擎在电影网站的应用取得了一定的成功,该研究具有一定的理论价值及现实意义。

其他文献

鲜切马铃薯褐变控制技术研究进展

随着人们生活方式的转变以及生活水平的提高,鲜切果蔬越来越受到现代人的青睐,鲜切马铃薯因其营养和方便等特性而广受欢迎。鲜切后马铃薯发生酶促褐变,次生代谢以及氧化损伤,

期刊

鲜切马铃薯褐变控制技术

子宫内膜异位症患者血清CA125测定

子宫内膜异位症患者血清ＣＡ＿（１２５）测定熊晓燕，舒明炎，高晓秋，刘惠兰，丛克家目前，子宫内膜异位症的诊断，主要依靠临床症状、体征及腹腔镜所见，而缺乏特异性手段。近年来研究发现，子宫内膜异位症

期刊

子宫内膜异位症刘惠兰子宫腺肌症

基于可穿戴设备的移动医疗慢病管理系统对社区中老年高血压与糖尿病患者的管理效果评估

背景每年因慢性非传染性疾病的死亡人数约占全世界死亡人数的三分之二,中国因慢性病死亡占总死亡的86.8%,慢性病已成为我国主要疾病负担。慢性病防治是社区卫生服务的重要工作之一,糖尿病与高血压被纳入国家社区基本公共卫生服务项目中。但目前对慢性病患者的常规管理面临管理效果不佳,随访困难,健康数据更新不及时,沟通不畅等弊端。随着移动技术的迅速发展,移动医疗(mHealth)作为控制风险因素和改善患者生活方

学位

移动医疗高血压糖尿病管理效果行为改变

细胞黏附分子CD44S、CD44V5在口腔鳞癌中的表达及意义

研究背景口腔鳞癌(oral squamous cell carcinoma，OSCC)是口腔颌面部的主要恶性肿瘤，一般占颌面部癌瘤的80%以上。OSCC易局部侵袭和转移，病灶的局部复发和转移是OSCC患者死亡的

学位

口腔肿瘤癌鳞状细胞抗原CD44

上肢手术后使用镇痛泵最佳时机探讨

期刊

上肢手术镇痛泵副作用使用时机

我国电子政务与办公自动化

当前,我国电子政务建设将从早期的'三网一库'('三网'为:政府机关内部的办公业务网、中央和地方政府及部门的实现政府纵向与横向信息交互与共享的办公业务资

期刊