【摘 要】
:
数据挖掘技术是当前计算机领域的一个研究热点,引起了大量研究人员的关注。而聚类分析是数据挖掘技术中一个重要的研究方向,目前这方面的研究主要集中在如何提高聚类算法的有效性和实用性。论文首先对数据挖掘技术做了介绍,旨在分析与确定数据挖掘技术的研究领域与存在的问题。数据挖掘技术中,聚类分析方法在模式识别、图像处理等领域获得了广泛的研究与应用,但是也存在聚类算法智能性、稳定性、有效性、可扩展性等方面的问题。
论文部分内容阅读
数据挖掘技术是当前计算机领域的一个研究热点,引起了大量研究人员的关注。而聚类分析是数据挖掘技术中一个重要的研究方向,目前这方面的研究主要集中在如何提高聚类算法的有效性和实用性。
论文首先对数据挖掘技术做了介绍,旨在分析与确定数据挖掘技术的研究领域与存在的问题。数据挖掘技术中,聚类分析方法在模式识别、图像处理等领域获得了广泛的研究与应用,但是也存在聚类算法智能性、稳定性、有效性、可扩展性等方面的问题。因此,论文进一步详细分析和研究了现存的各种有代表性的聚类算法,对它们缺点与优势以及各自所适应的具体应用前提、性能进行了比较全面的对比与总结;在此基础上提出了对K-Means算法和DENCLUE算法(基于密度分布函数的聚类算法)进行整合思想,依此来提高聚类方法智能性(实现无指导挖掘)、稳定性、有效性和可扩展性,同时给出了两种算法的整合理论基础。在实现整合算法的过程中,首先通过聚类对象属性(变量)的加权处理——基于复相关系数倒数的欧氏距离加权,消除了对象属性间的相关性,提高了聚类结果的准确性;然后,根据两种算法的整合思想,提出了一种新的聚类算法——基于密度和对象方向的K-Means算法KADD(K-MeansAlgorithmbasedonDensityandDirection),详细介绍了KADD算法的定义、数据结构、模型的建立,以及算法的具体实现。这种算法不但避免了需要用户事先给出难以确定的聚类参数的困难局面和随机选择初始聚类中心造成聚类结果的不稳定;而且可以发现任意形状的聚类;克服了K-Means算法对孤立点数据的敏感问题;提高了算法的可扩展性。最后在不同的数据集上,通过对原K-Means算法和KADD算法进行测试和对比,结果表明,算法的设计与实现是成功的,具有良好的可伸缩性,可发现任意形状的聚类,处理噪声数据的能力强,且具有较强的可解释性和可用性。
其他文献
随着国家对复合生态系统运行状态的持续关注,以及综合评价领域研究的推进与完善,复合生态系统评价的相关理论与方法已被应用于多个领域。其中,区域复合生态系统发展质量评价研究是复合生态系统评价的核心研究内容,同时也是对传统综合评价理论、方法的自然拓展。目前,与区域复合生态系统发展质量评价相关的研究已取得了较多成果。然而,在面向更为复杂的情境时,仍有一定的局限性,主要体现在以
随着清洁能源在全世界发展日益迅速,风力发电产业也获得飞速发展的机会,风电场的规模也变得越来越大,风机装机数量直线上升,一些风机装机时间较早,故障出现的次数也会增多,发电效率也会下降。风机上的监控与数据采集系统会在风机运行时产生大量数据,其中包含了风机运行的大量信息,如何充分挖掘和运用这些SCADA系统记录的有价值的数据,减少风机故障率、提高风电机组运行的可靠性具有重要的现实意义和应用价值。本文首先
目的:建立HPLC法测定二甲双胍格列本脲片(Ⅱ)中格列本脲的有关物质。方法:色谱柱为C_8柱(250mm×4.6mm,5μm),流动相A为pH3.5的磷酸二氢铵溶液(取磷酸二氢铵1.725g,加水300mL溶解,用磷酸调节pH至3.5±0.05),流动相B为乙腈,梯度洗脱,流速为1.0mL·min~(-1),柱温为40℃,检测波长为230nm。结果:格列本脲与已知杂
随着互联网的普及和网络质量的提高,互联网多媒体通信技术得到了迅猛而广泛的发展。网络电话和网络视频已经在改变人们的生活方式。在这样的大环境下,IETF制定的SIP协议,SIP是Session Initiation Protocol的简称,翻译成中文为会话初始化协议。该协议具有实现简单、扩展性好,具有强大的用户查找和定位能力,以及与现有Intemet联系紧密,而获得广泛的应用。现在的IP电话系统大部分
本文采用锡粉、硝酸、氨水为原料,用水热法制备了纳米SnO2粉体,并用XRD、SEM等手段对纳米SnO2粉体进行了表征。XRD和SEM分析表明,水热法制备的SnO2粉体为纳米级,晶粒的平均尺寸大小约为5nm。对水热反应时间分别为3h、9h、13h得到的粉体进行了XRD测试,测得粉体的粒径分别为4.1nm、4.4nm和5.0nm。 将粉体制作成了厚膜气敏元件,并对厚膜工艺进行了研究。确定了纳米粉体的
本论文主要研究的工作是以AVS—M标准为基础,应用差错复原编码以提高差错复原性能,对差错编码技术进行了研究,根据实际网络传输可能发生的问题,提出了比较适合在无线网络上视频传输的差错复原编码方案,仿真实验表明,本论文提出的差错复原编码方案在发生传输差错的情况下能够有效地提高重建图像的质量。
小学语文是培养学生人文素养与学识知识的重要阶段,在这个阶段下,学生正处于学识启蒙阶段,对事物的模仿能力强,加上周围环境的影响,是学生养成文明习惯的黄金时间段。小学班主任作为学生的直接管理者和负责人,要切合小学生心理发展规律,认真贯彻教学管理思想,教导学生基础的文化知识与正确的人生态度,使学生树立正确的人生观。本文旨在分析小学语文教学中管理中与班主任责任工作相结合下的
学校代码10530学号201590070035分类号D925.2密级公开博士学位论文“调查-起诉”关系研究——以职务犯罪为视
随着社交网络的蓬勃发展,社交网络大数据以丰富的跨媒体形式呈现出巨大的增长趋势。由于发布的消息具有快速传播和广泛共享的特点,社交网络跨媒体大数据揭示了大量真实的社会现象,蕴含了海量有价值的突发事件。因此,为了满足大量用户和组织者对突发事件有效管理和形式分析的需求,针对社交网络展开突发事件检测与搜索的研究具有重要的价值和意义。然而,社交网络突发事件中消息的描述形式具有一
传统的控制与辨识理论主要是基于线性系统的,多变量非线性控制仍是当前研究的热点和难点;同时纯滞后多变量系统存在着解耦控制的问题。本论文针对这些问题,采用模糊理论与内模控制相结合的方法,进行了一定的研究。本文的研究重点主要有两个方面:一、过程对象的系统模型参数辨识;二、内模控制器的设计和控制方法、控制律的选择。论文采用内模控制方法,针对多变量非线性纯滞后系统模型,结合模糊控制理论思想,实现了对系统的模