基于Spark技术的Hybrid推荐算法的研究与应用

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:YNiit562552379
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的飞速发展使得当今进入大数据时代,爆炸性增长的数据量也使得“信息过载”问题日益严峻,如何快速高效地从过量信息中筛选过滤出有用信息成为当前困扰人们的一个难题,由此,推荐系统应运而生。传统推荐系统的工作原理是利用过往数据发现不同用户的兴趣偏好特征,依赖这种功能为用户进行个性化推荐,但当其面临海量数据时,传统推荐算法需要消耗大量时间,可能无法满足用户需求。在这种形势下,分布式Spark技术的实现能够有效地解决这一技术缺陷。面对传统推荐算法在应用中暴露出的稀疏性、冷启动、可扩展性差等实际问题,本文在Spark技术的支撑下,结合传统的协同过滤推荐算法进行改进,并在此基础上构建了一个Hybrid推荐模型,可应用在电影推荐领域,使得推荐效果明显改善。本文主要研究内容如下:(1)简述了推荐算法和Spark技术相关理论知识,重点分析了协同过滤推荐算法的分类、推荐原理及其相应特性,并阐述了Spark核心技术及其工作架构。(2)基于邻域的协同过滤推荐算法的研究与改进。针对相似性计算只依据评分信息的单一性,提出包含用户特征的局部相似性和全局相似性概念相融合的改进相似度模型,对基于用户的协同过滤算法进行改进;对于基于项目的协同过滤算法,引入标签关联性相似度,将其与物品评分间相似度相结合,从而更加精准地筛选相似物品,进而提高推荐的准确性。最后在Spark平台上设计实验,并验证了该算法的可行性,实验结果表明改进后算法有效提高了推荐的准确性与可扩展性。(3)基于矩阵分解的协同过滤推荐算法。针对评分矩阵稀疏性问题,采用交替最小二乘法进行矩阵分解,并根据其迭代分解的特性利用Spark技术实现并行化,设计分组实验验证了不同参数取值对推荐效果的影响,得出该模型的最佳参数组合。(4)Hybrid推荐模型。将一般加权混合转化为最优化求解问题,基于改进的邻域协同过滤算法和交替最小二乘法来构建Hybrid模型,通过求解最优解集为该模型动态赋予权值,设计实验,通过分析预测准确性和分类准确性指标验证了Hybrid模型的推荐效果。该模型可应用于电影推荐领域。
其他文献
本论文针对实际控制过程中遇到的外部扰动、随机测量噪声、初始条件变化等问题,提出了一系列迭代学习观测器和基于观测器的数据驱动迭代学习控制方案,讨论和分析了所提出方法
二十一世纪以来,癌症已经成为危害人类生命安全的重大疾病之一,是解决全人类健康问题的首要研究对象。在测序技术的快速发展下,癌症测序数据源源不断地产生,为癌症研究提供了
有源电力滤波器(Active Power Filter,APF)从提出以来就被认为是最具潜力的电能质量调节器,能够实现实时跟踪,具有良好的动态性能。通常情况下,在三相系统中存在的谐波分量主
在陆地资源日渐减少的今天,扩大海洋资源的开发十分必要且紧迫。由于水下环境复杂多变,人们通常借助水下机器人搭载水下机械臂系统来完成深海探索和开发。水下机械臂是机电一
阀控系统具有动态性能好,控制精度高的特点,因此在工业领域有着广泛应用。但是由于泵源始终输出恒定的流量和压力,设计系统需要按最大负载工况设计泵源。因此在低负载工况,泵源输出的功率远大于负载实际功率,从而造成较大的节流损失和溢流损失。另外,阀控系统中进出油口节流面积均与阀芯位移关联在一起,存在着进出油口联动节流的问题,联动节流也会增加系统能耗。本文针对阀控系统能效低的问题,结合负载敏感技术和进出口技术
浙商银行自开业以来一直将小微企业贷款业务作为自己的特色业务大力发展,经过多年的发展,小微企业贷款业务取得了巨大的成绩,但也面临一些问题。为了推动小微信贷业务快速发
二次离子质谱(Secondary Ion Mass Spectroscopy,SIMS)是分析化学中非常重要的一种测试方法,具有高质量分辨率、高检测灵敏度和可微区微量分析等特点,被广泛应用于分析化学、
多机器人持续监控问题一直是当今社会研究热点,其可应用于众多领域,不但将人从复杂危险的环境替代,而且使得任务域监控效率得到很大提升。多个机器人可以协同对任务域进行持
微纳光纤传感器将微纳加工与光纤传感技术有机结合,具有重大的科研意义和产业化潜力。然而现有的加工技术无法在光纤端面实现任意复杂三维结构的制备,因而限制了微纳光纤传感
社会的不断发展与进步使得人类生活变得越来越方便,但与此同时也无法避免的带来了严重的环境污染问题。其中,大气污染不仅会气候、工业、农业等产生不良影响,更会对人体健康