基于Hadoop的个性化推荐系统的设计与实现

来源 :天津大学 | 被引量 : 0次 | 上传用户:ganggang821010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及与迅猛发展,产生信息成本的降低与传播信息途径的增多,导致了信息的爆炸式增长。互联网中的海量信息给用户带来了信息过载的困扰。推荐系统可以为广大用户在互联网的信息海洋中,快速有效地定位符合用户自身喜好的个性化信息,是解决信息过载问题的一种有效方法。另外,随着系统数据量的急剧增长,传统单机模式会难以负荷如此海量的数据,推荐过程中的运算难以进行,会遭遇较为严重的扩展瓶颈。因此,大规模数据量对推荐系统的实现提出了新要求。本文重点研究了提高推荐准确度与系统的可扩展性及运行效率的问题。为改善传统协同过滤推荐算法存在的冷启动和数据稀疏性问题,本文首先在用户相似度计算中引入了用户特征因素,使那些没有历史评分数据或者评分数据十分稀疏的用户可以基于自身特征发现相似用户集,从而初步为这些用户产生未评分项的预测评分,对原本稀疏的数据集进行填充。随后,在填充后变得密集的数据集上,利用项目自身属性提高项目间相似度计算的准确性,从而能更加准确地预测用户的喜好。通过大量实验研究,确定了用户特征和项目特征在相似度计算中的权值。为了提升系统的可扩展性和运行效率,本文引入Hadoop平台实现了数据的分布式处理,运用MapReduce编程框架实现了算法的并行化计算,克服了单机处理的运算瓶颈。利用Hadoop集群,在不同集群节点数的环境下,分别对本文提出的算法进行了实验,分析了算法的推荐准确度,对比了分布式与单机模式的运行效率。最后,对整个系统进行了前端与后台的交互设计,数据存储与展示的实现,以及推荐引擎的搭载。实验结果表明,使用本文所提出的改进算法对用户产生的预测评分的平均绝对偏差MAE值普遍更小,推荐准确度更高。同时搭载Hadoop的分布式架构使得系统具有良好的扩展性,在本文所用的数据集上,分布式处理数据比单机处理的运行时间缩短了近三成。由实验结果也可以看出,数据量越大,并行化计算的优势越明显,可以带来的效率提升越高。
其他文献
探索了锰对硼白口铸铁组织与性能的影响,以了解锰在硼白口铸铁中的作用。结果表明,含锰4%~5%的硼白口铸铁具有较好的淬透性和淬硬性。
测绘技能大赛对学生实践能力的提升和职业技能的培养有很大的促进作用。为有效实现技能大赛对高职测绘地理信息类专业学生学习的促进作用,基于各级测绘技能大赛,本文在解析以
本文探讨了北京伊斯兰教的地位,对伊斯兰教传入北京的时间提出了自己的看法,从6个方面概括了北京的清真寺在哪些方面为全国清真寺之冠,指出筛海传说与筛海坟是贯穿北京伊斯兰
利用膨胀法结合金相分析在热模拟试验机上测定了U75V钢不同冷却速率下的连续冷却转变膨胀曲线,获得了该钢的连续冷却转变曲线(CCT曲线);研究了冷却速率对钢组织及硬度的影响
回族古建筑——中国回族历史文化遗产中不可移动文物的抢救保护与传承研究,是当代备受海内外社会各界关注的重要问题,也是创建丝绸之路经济带,构建和谐文化与和谐社会、和谐
采用拉伸试验测定了三种不同冷轧工艺生产的1100铝合金板的塑性应变比,并通过各向异性分布函数对其进行了拟合处理;同时采用晶体取向分布函数(ODF)对其织构进行了检测,最后与
农业价值链融资是近年来许多国家运用于农业产业化的一种金融服务措施。国外农业价值链融资模式依据小农户与大市场系统的关系不同,分为农产品生产者驱动的价值链模式、农产
北京三里河清真寺的《重修清真寺碑记》,刻于明代天启年间,据碑文载,三里河清真寺的主要创建人是明万历年间的大太监李寿;天启年间重加修整并镌刻碑碣的,是另一位大太监金良
根据摩擦做功原理,建立了搅拌摩擦焊接过程热输入数值模型,并利用有限元分析软件ANSYS,采用移动热源分步加载的方法,模拟出厚度为4 mm的TC4钛合金板对接过程中的瞬态温度场分
1型糖尿病是严重威胁人类健康的自身免疫性疾病,随着对糖尿病致病机制研究的深入,相关研究成果为该疾病的治疗提供了新的思路。胰岛移植作为一种微创手术,是恢复1型糖尿病患者正常血糖水平的最具潜力的治疗方案之一,但在移植后早期由于自体免疫排斥的破坏,移植胰岛的存活率较低。生物材料可以为移植胰岛提供免疫屏障,从而扩大异种来源供体的适用性,提高胰岛移植率。因此以生物材料对胰岛进行包裹和表面修饰逐渐成为研究热点