论文部分内容阅读
随着电子商务系统的日益发展,用户的感知度不断提升,人性化的应用需求迅速增长,日益增长的用户消费数据占据着越来越多的存储空间,这些海量数据包含着很多非常有用的信息,如果不加以利用,无疑是巨大的浪费。面对这些日益增长的数据,传统的查询或分析方法往往是低效率、低精度的,某种程度上这种情况的产生是由于传统的分析工具不能应对海量数据的分析问题,另外过分注重数据的处理细节,也使传统的分析方法低效能。现今较流行的协同过滤推荐算法以相似性计算为基础,当面对高维稀疏数据时,这种推荐方法的推荐效果较差,尤其是当目标附近没有相似点时,则无法产生推荐结果,该推荐在用户模式聚类时会花费过多的计算时间,增加系统开销,并由此造成数据的频繁读取及存储,将削弱推荐的准确及效率。本文首先分析传统的用户一项目模式数据,然后改进了k—means聚类计算的方法与步骤,特别是在判定中心点时,提出了改进的针对低维小型数据的推荐聚类应用方法。进而,对高维大型数据的聚类方法,通过高斯模糊等方法建立聚类模型,依聚类的结果产生推荐。具体推荐时,通过建立用户推荐项目的模式,预测新用户的推荐项目归属类别,从而推测出目标用户对具体推荐项目的评分。本文选取了两种不同维度的数据集合,低维情况下数据集的数据按倍数关系选取,并由实验结果推断出算法改进的效率与准确度;高维以属性增加能考察不同维度情况下的算法运行效率,结合图像处理的高斯模糊算法,对数据集进行处理,并用理论分析低维小型数据与高维大型数据之问处理的差别性以及各自的特点,低维数据到高维数据的转变,不仅仅考察了不同维度下的模型建立方法,兼顾了不同维度的数据读取问题,另外,降维以及孤立点处理对聚类的准确度有很大影响。本文结合图形图像算法,探索了大数据的分析方法,经实验检验,本文提出的方法对聚类简化作用明最后,本文对研究和设计工作进行了总结,指出了聚类算法以及推荐系统的进-步工作方向。