面向稀疏数据的协同过滤算法研究与实现

来源 :三峡大学 | 被引量 : 0次 | 上传用户:sunfor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于协同过滤的推荐系统是解决信息过载问题的一种很好的方案,而且能够提供一对一的个性化服务。但是基于协同过滤的推荐算法同样也而临着一系列的瓶颈问题,如数据稀疏性问题,可扩展性问题,冷启动问题等。其中对于协同过滤算法的性能影响最大的因素之一是数据稀疏性问题。推荐系统中存在着大量的项目,而每个用户只对其中很少一部分项目进行了评分,从而导致评分数据的极度稀疏,而由于评分数据的稀疏给最近邻居的准确选取增加了难度,从而导致推荐的不准确。其次,协同过滤算法一般的应用的场景都需要处理海量的数据,并且数据会快速的动态增长,因此,算法的可扩展性也是协同过滤算法面临的一个问题。  本研究主要内容包括:⑴从相似度计算的角度出发,分析传统相似性度量方法存在的弊端,综合用户的评分行为和项目属性相似度,提出一种改进的相似度计算方法。实验结果表明,该相似度计算算法能够有效提高相似度计算的准确性。⑵从缓解稀疏评分矩阵的角度出发,分析数据稀疏性对推荐准确度的影响,提出了基于改进相似度计算法方法进行预测评分,进而使用该评分填充空缺值的矩阵预填充方法,以降低数据集的稀疏性。在填充后的评分矩阵上采用基于用户的协同过滤算法来产生推荐。实验结果表明,该算法可以在一定程度上有效的改善因数据稀疏性而带来的最近邻搜寻不准确的问题,提高推荐系统的准确度。⑶从协同过滤算法的可扩展性角度出发,分析基于改进相似度计算方法的协同过滤算法中关键步骤的MapReduce实现原理,进而在Hadoop平台上实现基于改进算法的协同过滤推荐系统的简单模型。实验结果表明该算法的分布式实现的可行性,从而解决了算法的可扩展性问题。
其他文献
本文首先研究了具有未知非线性动态的一阶 leader-following多智能体系统的分散式自适应同步控制问题.在上述研究工作的基础上,本文进一步研究了一阶leader-following多智能体
网络流量测量是网络监测、管理和控制的基础。随着互联网的发展,网络行为变得越来越复杂,网络流量也越来越大,使直接对流量进行全面测量变得极为困难,为解决这一问题,目前主要采用
近年来,流媒体在Internet上得到了迅猛的发展,成为推动未来宽带应用的主动力。然而,传统的流媒体分发方案如C/S模式、CDN、IP组播等,在系统的可扩展性、可靠性和经济性等方面存在
为了研究太阳黑子的运动规律,需要对历年来观测太阳黑子运动所记录的图像进行相关研究。在对太阳黑子观测图进行图像处理时,图像识别是很重要的一部分。对已有图像的识别,人们采
随着无线传感器技术的发展,无线传感器网络(Wireless Sensor Network,WSN)得到极大的关注。WSN有着广泛的应用场景,在一些危险、不易到达以及不易生存等情景下,利用无线传感
空间、属性、时间是地理现象的三个基本特征,也是地理信息系统(GIS)数据库的三种基本数据成分。传统的地理信息系统只对空间进行静态的抽象表示,它只涉及地理信息的两个方面:
随着移动通信的迅速发展,人们不再满足于仅有的文本、声音、图像,而是希望得到声、文、图及视频流媒体等信息。第三代移动通信网络(3G)不仅继承了时分多址接入(TDMA)技术,还发展
随着数据的爆炸性增长和数据的重要性不断增加,传统的存储体系结构已经不能满足数据存储的需求。新的存储体系已经被广泛的研究和使用,例如SAN。基于ISCSI协议的IP SAN作为一
随着社会信息化程度的不断提高,人类社会对计算机网络的依赖程度也越来越高。与此同时计算机网络本身具有的开放性、共享性等特点所带来的网络安全问题也日渐突出。如何能保
局部不变性特征是近10几年来图像处理、模式识别等领域里一个研究热点。尺度不变特征变换(SIFT)算法,是一种典型的局部不变性特征,能够在图像发生旋转、尺度变换、视角变化及仿