基于Spark大数据处理的协同过滤推荐系统研究与实现

来源 :兰州大学 | 被引量 : 5次 | 上传用户:wyhai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代社会信息越来越庞杂,人们生活在一个信息过载的时代,通过某种方式为用户过滤掉无用信息是研究者不断追求的目标。推荐系统就是用来满足用户需求或者服务的系统,它能够满足用户个性化的需求,在用户获取和查询信息中占据着重要的地位。但是推荐系统在发展过程中,也存在一系列的难题需要解决,例如业务调整频繁,系统响应速度慢,推荐结果准确度低下以及海量数据的处理与分析时较慢等问题。为了解决以上问题,需要对推荐系统不断的研究改进。一个良好的个性化推荐系统一方面需要拥有较好的扩展性,能够随着业务需求的不断变化对系统进行调整和更新;另一方面还需要采用大数据处理相关技术来解决推荐过程的效率问题。目前Hadoop及Spark分布式处理平台是解决大数据处理的重要方案,通过分布式的计算与处理实现对海量数据的管理与分析,本文的研究正是基于这些方案。推荐系统现在面临的主要问题是数据的稀疏性,它也是导致推荐系统结果不准确的重要原因。随着数据量的不断增加,对于数据的处理过程也变得更为复杂。为了更加有效地解决以上问题,本文设计并完成了一种基于Spark框架的推荐系统。在文中对本系统的总体结构和具体算法进行了介绍,并对不同算法的优势和缺点进行了分析,最终选择了基于用户偏好实现个性化推荐的方法。论文首先描述了课题研究的背景及国内外研究现状,并分析了论文的主要内容;随后分析了协同过滤算法的相关情况和Spark大数据处理框架的相关技术;课题分别从相似度传递和语义分析算法两方面来改善推荐效果;为了做到“实时”推荐,提升推荐速度,采用了Spark大数据处理技术;在分析设计相关算法之后,本文的系统设计从系统总体框架、推荐引擎总体框架和推荐引擎设计三个部分予以分析设计实现;为了证明推荐算法的有效性,文中进行了大量的试验和测试。最后实现了一个利用本文算法的电影网站。实验表明,本文的协同过滤推荐算法具有良好的推荐效果,由于采用了Spark大数据处理框架,速度优势明显,此外本课题的推荐引擎在电影网站的应用取得了一定的成功,该研究具有一定的理论价值及现实意义。
其他文献
随着人们生活方式的转变以及生活水平的提高,鲜切果蔬越来越受到现代人的青睐,鲜切马铃薯因其营养和方便等特性而广受欢迎。鲜切后马铃薯发生酶促褐变,次生代谢以及氧化损伤,
子宫内膜异位症患者血清CA_(125)测定熊晓燕,舒明炎,高晓秋,刘惠兰,丛克家目前,子宫内膜异位症的诊断,主要依靠临床症状、体征及腹腔镜所见,而缺乏特异性手段。近年来研究发现,子宫内膜异位症
背景每年因慢性非传染性疾病的死亡人数约占全世界死亡人数的三分之二,中国因慢性病死亡占总死亡的86.8%,慢性病已成为我国主要疾病负担。慢性病防治是社区卫生服务的重要工作之一,糖尿病与高血压被纳入国家社区基本公共卫生服务项目中。但目前对慢性病患者的常规管理面临管理效果不佳,随访困难,健康数据更新不及时,沟通不畅等弊端。随着移动技术的迅速发展,移动医疗(mHealth)作为控制风险因素和改善患者生活方
研究背景口腔鳞癌(oral squamous cell carcinoma,OSCC)是口腔颌面部的主要恶性肿瘤,一般占颌面部癌瘤的80%以上。OSCC易局部侵袭和转移,病灶的局部复发和转移是OSCC患者死亡的
当前,我国电子政务建设将从早期的'三网一库'('三网'为:政府机关内部的办公业务网、中央和地方政府及部门的实现政府纵向与横向信息交互与共享的办公业务资
黔中喀斯特地区的屯堡村落蕴藏着巨大的人文、历史及传统存留发展价值。本文将凯文·林奇的城市意象理论应用于传统村落空间特征研究,以具有代表性的云山屯为例,从道路、
近日,浙江省绍兴市柯桥区公安局破获一起生产销售假冒产品案。该案生产销售假冒“Columbia”品牌服装的上下游网络涉及浙江、江西两个省份及香港、荷属安地列斯等地,涉案金额
期刊
社会实践是大学生成长成才的重要途径,而社会实践基地是大学生实践教学中的重要组成部分。为全面了解在甬高校大学生社会实践基地建设现状,完善在甬高校社会实践基地建设,本