协同过滤算法相似度的研究及并行化的实现

来源 :天津大学 | 被引量 : 0次 | 上传用户:hhbsoftware
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网进入互联网+的时代,网络数据的产生速度发生了惊人的变化。推荐系统能够实时地了解用户的需求变化以及用户兴趣变化,实现了动态向用户推荐感兴趣的内容,推荐系统已经成为一种当代大数据信息过载的解决方案。协同过滤(Collaborative Filtering,CF)算法是当前推荐领域应用表现最为突出的算法之一。推荐算法利用用户在互联网中的行为数据分析用户或项目之间的相似性,通过分析相似性关系,向用户推荐可能会感兴趣的项目。由于数据量大,且数据维度多,有必要使用一个高效的大数据处理平台对数据进行相应的计算。由于用户的评分矩阵十分稀疏,传统协同过滤算法出现了预测精度低、可扩展性差问题,从而导致项目间的相似性与实际情况偏差大。论文针对传统推荐算法候选集不合理问题,提出一种新的用户评分预测算法New Item-based Collaborative Filtering(NItem-based CF),以提供高准确性的推荐。Item-based CF算法首先将关联规则添加到相似度算法计算中,改进传统的皮尔森相似度计算方法,来计算项目之间的相似性关系,进而构造项目间关联矩阵,然后通过关联矩阵预测出用户对项目的评分矩阵。论文使用平均绝对误差和均方根误差对预测结果进行评估,实验证明NItem-based CF算法提高了预测精准度。针对网络环境运行效率低下的问题,论文使用Spark分布式计算平台对NItembased CF算法进行并行化的实现。实验结果表明,并行化后提高了算法的计算效率。另外,针对推荐数据集维度大的问题,交替最小二乘法(Alternating Least Squares,ALS)实现了矩阵分解,并在Spark平台上对ALS算法进行了实现。实验结果表明,ALS算法在一定程度上缓解了数据维度过高的问题。
其他文献
随着老年人口的不断增多,养老压力日益显著,我国已进入名副其实的老龄社会。家庭养老的传统和未富先老的经济条件,无疑给家庭和社会带来了严重的压力和挑战。随着我国社区的
目的:依据彭静山教授观眼识证学说来观察记录原发性高血压病患者中白睛络脉的分布、形状、颜色这三项变化的规律,探讨白睛络脉变化与原发性高血压病的相关性,客观的记录白睛络脉
水利工程施工是农业水利工程专业的专业主干课程,在本科教学中起到了至关重要的作用。但在教学过程中存在教学质量不高,学生吸收知识点困难的现状。文章借鉴国际ADDIE教学设
贵州省旅游资源丰富,开发潜力巨大,旅游发展比较迅速,社会效益较高,但仍然存在旅游宣传不到位、旅游路线不明确、旅游目的地不突出、旅游产品缺乏认证等问题。在贵州省大数据
本文在介绍评价托马斯·琼斯和拉里·莱恩提出的即认识道德问题、做出道德判断、形成道德意向、从事道德行动的道德认同模型的基础上,论述这一理论对于组织伦理教育的
目的:采用随机、双盲双模拟、平行对照法,通过临床试验研究,验证桂枝茯苓胶囊治疗原发性痛经的可行性和疗效性,观察其安全性。研究方法:1.病例选择:基线期观察将符合西医原发性
近期工程造价控制与管理要求提高,因而工程投标阶段凸显出了它的重要性。文章叙述了怎样进行投标阶段的工程造价,分析了现阶段建筑工程招投标造价控制存在的问题,并提出了如
物华天宝,人杰地灵。赣鄱大地承载着独特风味的精品赣菜,孕育着深厚的赣菜餐饮文化。当前,江西省餐饮行业面临着反腐、法治和经营的新常态。随着反腐治奢的力度不断加大,餐饮
第一部分:HIF-1α、HIF-2α、H-FABP与左心疾病相关肺动脉高压的相关性研究目的通过观察患者血浆HIF-1α、HIF-2α、H-FABP浓度及与肺动脉收缩压(PASP)的相关性,探讨其在左心