数据挖掘中几种划分聚类算法的比较及改进

被引量 : 0次 | 上传用户:beginI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是一种多学科交叉的新兴技术,它是随着数据的大量积累以及市场竞争对信息与知识的迫切需求而产生和发展起来的,并逐渐成为人们关注的热点。聚类分析是数据挖掘领域中一个较活跃且极具挑战性的研究方向。目前聚类算法中比较流行且应用比较广泛的划分聚类算法主要有K-均值、K-调和均值、模糊C-均值和谱聚类等划分算法。但这些算法自身都存在一些缺陷,例如对初始点敏感、不适用于大数据以及收敛速度慢等。主成分分析是一种将分散在一组变量上的信息集中到某几个综合指标(主成分)上的探索性统计分析方法,同时也是一种数据降维处理技术。本文借助主成分分析的一些优点,提出一种基于最大或次大特征值的主成分分析(PCA)聚类算法。该算法同时结合主成分分析以及所选择的聚类算法的优点,通过数值实验表明该算法是一个有效可行的算法。同时,根据聚类分析中距离度量的重要性,本文在K-均值算法中引用了一种新的距离度量,得到了改进的K-均值聚类算法。该算法通过一个参数的调节可以达到非常好的聚类效果。本文首先是阐述了聚类分析以及主成分分析的一些理论基础,分析和比较了几类较流行的划分聚类算法,并在说明现有算法的不足的基础上提出了两类改进的聚类算法。通过MATLAB编程进行数值实验,数值实验结果表明,基于最大或次大特征值的PCA聚类算法在计算时间、迭代次数以及聚类结果上都有一定优势,而改进的K-调和均值算法通过调节参数也可以得到很好的聚类效果,同时在聚类时间和迭代次数方面比传统的K-调和均值算法更具优势。
其他文献
<正> 中国人初学日语,常常在应该用自动词的地方用他动词,而在应该用他动词的地方用自动词。这样的错误不仅初学日语的人有,就是有相当日语能力的人也有。寺村秀夫教授把日语
<正>包装饮用水标准在包装饮用水行业备受关注,2014年12月,《食品安全国家标准包装饮用水》(GB 19298—2014)正式颁布,并将于2015年5月24日正式实施。本报告针对包装饮用水标
本文针对我国难处理金矿资源低品位、多金属的特点,采用湿法冶金的手段研究了从难处理金矿中分离低含量铜、锌及直接回收高品质硫酸铜、硫酸锌的工艺流程,提高了低品位、多金
随着海洋平台和舰船的大型化发展,对海工钢特厚板的厚度和性能要求不断提高。本文主要介绍海工钢特厚板的生产方法和质量控制的研究进展,从应用前景角度介绍了未来海工钢特厚板
物理,是中学生学习的重要课程之一,对于初中生来说,学好物理可以为高中的学习奠定良好的基础。这样一来,教师则有必要将教学内容融入到生活中,使物理问题由抽象变具体,在教学
<正>包装饮用水是我国饮料行业的最大品类,年产量占全国饮料总量的40%以上。作为日常饮水的重要补充,包装饮用水已经成为人们生活的必需品,同时也成为应对社会突发事件的必备
东濮凹陷是我国东部渤海湾盆地一个典型的富油气盐湖盆地。长期以来对东濮凹陷隐蔽油气藏尤其是岩性油气藏的主要类型、分布规律及其勘探方法未能有一个较清晰的认识和比较完
压电发电装置相对于其他微型发电装置,具有结构简单、不发热、无电磁干扰和易于实现微小化等优点,越来越受到各国研究人员的关注。本文采用理论分析和试验验证相结合的方式,
分类和推理是类别知识的两大重要功能,除了分类任务,类别特征推理任务也是类别知识的很重要的应用方面。分类任务是已知某项目具有的特征值,推测该项目所属类别的类别标签。
东濮凹陷是典型的复式油气分布区,油气富集与构造因素有十分密切的关系,构造特征的认识对提高成藏规律的认识、寻找新的含油气区块、提高勘探效益起着关键性的作用。以构造分