基于中心聚集参数的改进K-means协同过滤推荐算法

来源 :河北经贸大学 | 被引量 : 2次 | 上传用户:xukaiboy123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今互联网高速发展,伴随它而生的信息服务更是同样发展迅速,但这背后却存在一些问题。人们在使用网络时会留下大量的数据信息,这些数据增长速度非常快,从而造成网络中的信息十分冗余,人们就不能快速的、精准的搜到自己想要的内容。个性化推荐系统的出现便较好地改善了这一问题,给人们在使用网络时带来了便利。因此作为推荐系统的核心,推荐算法的性能显得尤为重要,但传统的协同过滤推荐算法会随着系统本身规模的扩大,数据不断增多而产生算法扩展性、数据稀疏性和冷启动等问题,如果能够对这些问题加以改善,推荐算法的性能则会进一步提高。因此本文则从算法扩展性和数据稀疏性这两方面优化推荐算法,从而提高推荐质量,主要工作如下:首先,针对算法扩展性问题,本文提出了基于中心聚集参数的改进K-means协同过滤推荐算法。该算法先提出了一种中心聚集参数,中心聚集参数的目的在于筛选出最合适的,最优的初始化聚类簇心以及确定聚类个数。将加入中心聚集参数的改进K-means聚类算法在UCI数据集上验证,通过调整兰德系数、互信息指标和Fowlkes-Mallows指标的结果显示,改进的算法聚类效果最好;然后在MovieLens数据集上实现基于中心聚集参数的改进K-means协同过滤推荐算法,对评分数据做聚类,同时也将对应的用户加以聚类,这些聚为一类的对象具有一定的相似性,减小了目标用户所要进行搜索的最近邻空间,得到聚类簇后,使用传统的协同过滤推荐算法计算出预测评分;最后利用平均绝对误差(MAE)进行精确度计算,在进行两组对比实验后得出,基于中心聚集参数的改进K-means协同过滤推荐算法的MAE最小,因而推荐精度是最高的。其次,针对数据稀疏性问题,本文提出了基于Slope One矩阵填充用户聚类推荐算法,本算法是在MovieLens数据集上进行验证。首先通过对比Slope One算法、用户评分平均值、物品评分平均值、全局平均值、物品流行度和用户活跃度方法的均方根误差(RMSE),通过计算选取RMSE值最小的Slope One算法先对初始的评分矩阵进行缺失值的填充,即消除0元素,一定程度的降低数据矩阵的稀疏度;然后利用经典K-means进行用户聚类,减小了目标用户最近邻的搜索空间,使得匹配出的最近邻居较为准确;最后在分好类的簇中使用传统协同过滤推荐算法预测用户的评分,利用MAE进行精确度计算,进行了三组对比实验,并得出本文提出的算法MAE最小,因而推荐精度是最高的。通过实验分析得出,本文提出的两种推荐算法在推荐精度上都优于传统的协同过滤推荐算法,进行了不同的改进后都降低了平均绝对误差值,使推荐更为精确,说明可以较为有效的改善算法的扩展性以及降低数据稀疏性,在一定程度上丰富和发展了现有推荐系统的理论成果。同时也有一定的实际意义,随着网络中数据的大量增加,评分信息很少时,本文的算法可以有效减少寻找相似用户范围的时间,同时保证推荐质量较好,让用户获得的推荐更符合他们的需求,在基于用户的推荐方法中有较好的推荐效果。
其他文献
学科教材不但是科任教师上课的资源之一,而且还是学生课内课外学习的重要材料。课堂教学过程中任课教师怎样使用教材,如何发挥教材的作用是每一位教师必须研究的一个课题。从
目的:观察大剂量盐酸氨溴索联合无创通气治疗成人呼吸窘迫综合征的效果。方法:选取80例成人呼吸窘迫综合征患者作为研究对象,按照随机数字表法将其分为观察组和对照组各40例
安阳县是一个典型的农业大县,耕地面积7.38万hm^2,人均耕地为0.075hm^2,人多地少,后备资源匮乏。安阳县要获得更多的产量和效益,提高粮食综合生产能力,实现农业可持续性发展,就必须提
现如今,"3D建模"技术的应用已经十分广泛,而Rhino和3Ds Max则是3D建模领域最常见的两款软件。这两款软件有着共通性,也有各自的特殊性。而其中最重要的特殊性便是Polygons建模和NURBS建模的本质区别。通过软件分析实例操作演示可以看出,虽然两种软件都可以达到相似的建模效果,但建模过程有着各自的特点与区别。读者应根据自己的学习及工作需要选择合适的软件,更好地提升工作效率和竞争力。
控制工业园区面源污染是解决天津滨海新区日益突出的水环境问题和维持周边海域水生态安全的关键。为缓解该区域日益突出的生态环境恶化与经济可持续发展的矛盾,本文以天津市滨海新区临港工业园区1期建设产业园区丰水期的5场典型降雨径流水质水量为研究对象,对工业园区典型下垫面的径流污染程度、污染物输移特性及来源解析等3个方面进行了初步的探讨,以期为工业园区径流污染控制提供科学的指导。研究结果表明:(1)天津临港工
在金融市场的快速发展中,对于金融衍生品的定价研究也越来越引起关注,其中欧式期权定价的发展研究当中,Black-Scholes方法的产生堪称期权定价的里程碑,由此改进的偏微分方程方法,有限差分法等运营而生,其中二叉树定价模型和三叉树定价模型是比较经典的模型,但由于现实因素导致的不确定环境下,传统二叉树定价模型或者三叉树定价模型无法很好的描述不确定性。为了量化这种不确定性,模糊数学的思想由此产生,然后
政府部门绩效信息是社会各界了解其资金使用现状的依据,有利于提升政府治理能力和财政透明度,继而提升社会公众满意度。实施全面预算绩效管理有利于政府完善预算支出结构、披露更多财政信息,但是在中央推行过程中,地方政府存在着对政策理解不准确、执行不到位等突出问题,导致政府部门在绩效评价指标体系设计上存在缺陷,使绩效评价无法发挥应有作用。尤其是公安局的工作绩效直接影响国家政治、经济和社会秩序的稳定以及社会公众