基于聚类的协同过滤推荐算法研究

来源 :广东工业大学 | 被引量 : 13次 | 上传用户:onepiece_bing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和移动终端快速发展和迅速普及,互联网数据呈爆炸性地增长,出现了“信息过载”问题。如何在海量数据里找到用户真正感兴趣的信息并将其推荐给用户成为了业界研究的热点。推荐系统能帮助用户挖掘海量数据里深层次潜在的信息,帮助用户快速获取需要的内容,从而被广泛应用。协同过滤是当前较成功的推荐算法之一,其简单的模型概念和实现过程备受大型企业青睐。但是,协同过滤也存在着冷启动、数据稀疏、计算效率以及系统可扩展性等方面的问题。针对协同过滤存在的冷启动和数据稀疏问题,本文引入李德毅院士提出的云模型概念。云模型属于不确定人工智能领域,主要是将多维向量映射至三维向量,使用期望、熵和超熵等数学特征进行量化,这也使得问题从局部扩展到全局,从而降低数据稀疏和冷启动带来的负面影响。另外,本文结合云模型提出一种改进的相似度计算模型,该计算模型可以更好地描述用户(项目)间的相似性。最后,在计算云特征时,还考虑用户的偏好因素,如时间因素、评分因素等。针对协同过滤存在的系统计算效率、可扩展性问题,本文提出一种基于二叉树的聚类算法。协同过滤计算效率低下的原因是在计算最近邻时,需计算目标用户与所有用户的相似性,从而获得与目标用户最相似的用户集。因此使用聚类算法减少近邻比较次数成为研究热点。K-Means算法不仅受限于初始中心和K值的设定,而且还存在用户不能同归属于多类别等方面的问题,故本文提出一种改进聚类算法。其主要是将数据结构二叉树和聚类算法K-Means相结合,形成一种新的层次聚类算法。最后,本文将基于二叉树的聚类算法和云模型相融合,形成一种基于聚类的改进推荐算法。在计算过程中由于结点之间的无关联性,本文引入基于内存的分布式计算框架Spark,并将本文算法在该平台上并行实现。经由实验证明,本文算法不仅可提升准确性,还能够通过并行化从而提高系统可扩展性。本文在模拟现实集群环境下,对提出的基于聚类的协同过滤算法进行测试,主要是用于评估推荐算法的稳定性、准确性以及响应时间,为该推荐算法进行了比较科学有效的评估。对比实验结果发现,本文提出的基于聚类的协同过滤算法在稳定性、精确性、高效性以及可扩展性等方面均表现优异,满足算法要求。
其他文献
在单位根和协整检验的基础上,建立误差修正模型以考察了石油消费量和经济增长之间的长短期因果关系。结果表明:石油消费和经济增长存在着长期均衡关系。在短期和长期内,存在着由
目的观察自制硫黄古月粉软膏治疗疥疮的临床疗效及安全性。方法39例疥疮患者随机分为治疗组和对照组,两组在舒肤止痒膏洗澡后全身涂药,治疗组外涂自制硫黄古月粉软膏,对照组
以赣西南杉木实生林和萌芽林为研究对象,通过野外样地调查和室内化学分析方法,揭示了不同龄组实生林和萌芽林的碳储量分配特征,为其可持续经营提供科学依据。结果表明:不同龄
网络成瘾不仅会妨碍个体的学习与生活,还会给个体的身心健康带来消极影响。生活案例中,波波由一个活泼、聪明的儿童,变成一个对抗、逃避父母的网络成瘾者,对此可以用霍妮关于
在新课程改革的推动下,教师作为一种特别的职业,他们在完成自身的发展过程中,也使自己的专业化得到更多的发展。本文从新课程"新"在哪里、新课程与教师的关系、教师专业发展
在篮球比赛过程中,节奏性与连贯性起着重要作用,因此在训练身体素质、基本技术和战术配合的同时,要注意提高篮球运动员的技战术的节奏性与连贯性.
四、严格有序的内部管理,激励上进的用人之道历史上,同仁堂是前店后厂,自东自掌,不用代理,实行的是家规店规合一管理方式,管理甚为严格。家庭成员都要参加制药劳动,掌管细料
随着近些年全球环境不断恶化,增加森林覆盖面积作为当前进行环境治理的有效方法在我国也得到广泛应用。为了实现我国林业的进一步发展,保证当前进行的营造林工程能够取得较好
直接数字频率合成(DDS)是研制信号源的关键技术。采用DDS技术,设计了输出频率范围为5MHz~40MHz,频率步长为1MHz的射频信号源。首先,分析了其相位噪声和杂散。然后通过传统制板工艺
[目的]观察活血化瘀方药对Poresky多囊卵巢综合征(PCOS)大鼠模型内皮细胞功能及形态的影响。[方法]依照Poretsky法建立PCOS大鼠模型,随机分为中药组、模型组,并设立正常组作