改进的聚类算法在不同数据集中的研究及应用

来源 :广东工业大学 | 被引量 : 3次 | 上传用户:yukeno1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务系统的日益发展,用户的感知度不断提升,人性化的应用需求迅速增长,日益增长的用户消费数据占据着越来越多的存储空间,这些海量数据包含着很多非常有用的信息,如果不加以利用,无疑是巨大的浪费。面对这些日益增长的数据,传统的查询或分析方法往往是低效率、低精度的,某种程度上这种情况的产生是由于传统的分析工具不能应对海量数据的分析问题,另外过分注重数据的处理细节,也使传统的分析方法低效能。现今较流行的协同过滤推荐算法以相似性计算为基础,当面对高维稀疏数据时,这种推荐方法的推荐效果较差,尤其是当目标附近没有相似点时,则无法产生推荐结果,该推荐在用户模式聚类时会花费过多的计算时间,增加系统开销,并由此造成数据的频繁读取及存储,将削弱推荐的准确及效率。本文首先分析传统的用户一项目模式数据,然后改进了k—means聚类计算的方法与步骤,特别是在判定中心点时,提出了改进的针对低维小型数据的推荐聚类应用方法。进而,对高维大型数据的聚类方法,通过高斯模糊等方法建立聚类模型,依聚类的结果产生推荐。具体推荐时,通过建立用户推荐项目的模式,预测新用户的推荐项目归属类别,从而推测出目标用户对具体推荐项目的评分。本文选取了两种不同维度的数据集合,低维情况下数据集的数据按倍数关系选取,并由实验结果推断出算法改进的效率与准确度;高维以属性增加能考察不同维度情况下的算法运行效率,结合图像处理的高斯模糊算法,对数据集进行处理,并用理论分析低维小型数据与高维大型数据之问处理的差别性以及各自的特点,低维数据到高维数据的转变,不仅仅考察了不同维度下的模型建立方法,兼顾了不同维度的数据读取问题,另外,降维以及孤立点处理对聚类的准确度有很大影响。本文结合图形图像算法,探索了大数据的分析方法,经实验检验,本文提出的方法对聚类简化作用明最后,本文对研究和设计工作进行了总结,指出了聚类算法以及推荐系统的进-步工作方向。
其他文献
随着互联网技术的迅速发展,传统的分布式计算技术已不能满足用户需求,Web服务应运而生并成为面向服务计算的范例。随着Web服务技术的不断发展及其应用范围的逐步扩大,越来越
随着互联网技术和信息技术的迅猛发展,人类社会进入了信息时代。信息时代的一个显著的特点就是人们所面对的信息和对信息的需求剧增。如何从这些信息中获取有用的知识是人们
云计算是继分布式计算、并行计算、网格计算之后一种新的计算模式,已经成为学术界和工业界的关注焦点。根据云计算技术架构可知,云计算环境下的管理中间件对云服务的功能和性能
密码安全的重要性,无论是个人业务还是集体作业,或是在证券、金融、政府、教育等行业领域,抑或是大到关系国家信息安全的机构,都是不言而喻的。尤其是随着网络技术的日新月异,虚拟
近年来,随着计算机技术、多媒体技术及网络技术的快速发展,音视频会话系统正在向嵌入式、数字化和网络化的方向发展。随着移动网络的高速发展,在移动终端上实现音视频会话功
随着互联网和通讯产业的快速发展,微博成为了又一个跨时代产品。微博是一个基于关系的信息分享、传播以及获取平台。用户可以通过WEB、WAP以及各种客户端组件,以140字左右的文
信息物理融合系统是一类将数字化、网络化系统与物理过程密切融合的设备系统,它集通信(Communication)、计算(Computation)和控制(Control)于一体,通过此3C技术的有机融合和
在高压开关柜中,由于触头、母线等过热,从而导致绝缘损坏而引起故障,最终导致短路、爆炸等严重后果。因此,高压开关柜温度实时监测,是电力系统安全、可靠运行的重要保障。由于高压
数据查询是两层传感网中用户获取和分析感知数据的重要手段。由于感知节点大都部署在无人值守、复杂多变的环境中,使得不完全数据广泛存在于两层传感网中,丢弃这些数据会降低查
无线传感器网络是传感器技术、嵌入式计算技术、分布式信息处理技术和通信技术迅速发展的结果。无线传感器网络由分布在检测区域内的无线通信节点以自组织的方式组成。作为一