论文部分内容阅读
互联网的迅速发展,为信息量的惊人膨胀提供了土壤,大量信息在给人们提供更多价值的同时,也意味着人们为了寻找合适的信息必须付出更大的成本。推荐系统作为一种普遍使用的信息过滤手段,已越来越受到人们的重视。由于协同过滤算法的易理解性以及其仅依赖历史评分数据等特征,使其成为使用最多的推荐算法之一,但其本身存在着冷启动、数据稀疏性、难以扩展等问题。同时,随着物联网、云计算、移动互联网等新技术的快速发展,当前的数据量级甚至达到了PB、ZB级,信息社会已步入大数据时代。然而,商品和用户数量的急剧增加,使得单机系统的计算时间、存储空间都已成为影响推荐性能的重要因素,如何在大数据环境下改进传统推荐算法已成为一个亟待解决的问题。为取得更好的推荐效果,本文以解决或在一定程度上缓解这些问题为目标,首先重点分析了传统经典推荐算法以及常见的改进推荐算法在推荐系统中的应用,并针对传统推荐算法存在的冷启动与数据稀疏性问题,提出了一种将用户人口统计特征与信任机制相结合的协同推荐算法,并进行多组对比实验,实验结果表明:该方法不仅对推荐准确率有明显提高,而且由于引入了人口统计特征与信任机制,考虑了多重因素的影响,极大的缓解了冷启动与数据稀疏性问题。另外,针对大数据环境下,面临海量数据时出现的计算性能及可扩展性等问题,本文将提出的改进推荐算法进行MapReduce并行化处理,并进行了相关对比试验。实验证明了本文并行化改进推荐算法在缓解数据稀疏性、解决冷启动问题、并提高推荐准确性的同时,在扩展性及计算效率上都有较好的效果。最后,为进一步验证算法的实用性和有效性,本文设计了一个基于改进推荐算法的在线书目推荐原型系统,在对系统需求分析的基础上,介绍了系统的设计框架与流程,采用Hadoop分布式框架、JavaWeb技术以及MySQL数据库构建系统,并展示了推荐结果。