基于粗糙粒计算的数据挖掘算法研究

被引量 : 0次 | 上传用户:guanshui5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界数据集合的规模正在飞速膨胀。挖掘隐藏在数据内部的、模式化的信息或知识,变得日益重要。这使得数据挖掘成为了一个热门的研究问题。数据挖掘技术日趋成熟,研究发现数据中往往存在着大量的近似的、模糊的、不可分辨的信息。为处理不可分辨问题,很多的数据挖掘算法与粗糙集理论、粒计算理论相互结合。研究工作采用粗糙集、粒计算理论处理带有模糊性的数据集合,主要包括以下几个方面:1、提出一种单维度的层次粒化属性约简算法。分析了邻域方法在处理连续信息属性约简时,存在的粒化条件不统一的问题。即使用距离度量作为衡量近似关系的标准,对不同维度的距离计算使用相同的近似阈值,难免会造成分类精度上的误差。单维度层次粒化属性约简算法针对每个属性,使用统一的距离阈值粒化数据对象的邻域。并通过网络序列层次粒化模型的相邻层次等价粒之间的性质,计算数据集合的分类性能。实验证明,算法减少了需要输入的主观参数,具有较好的约简性能,降低了必要信息的损失。2、提出一种基于簇内不平衡度量的粗糙K-means聚类算法。以往的粗糙K-means算法及其改进方法,将研究的重点放在边界对象的模糊性和数据点在簇间的相异程度上,并没有关注数据样本因分布位置不同造成的簇内差异。簇内不平衡度量可以有效的地反映数据对象因与均值中心距离不同而在簇内的贡献程度不同。通过对UCI数据的仿真分析,表明该算法可以使得聚类簇内更加紧凑,簇间更加分离。3、提出一种密度自适应簇内不平衡度量的粗糙K-means聚类算法。数据对象在簇内的分布不平衡,不仅反映在与均值中心的距离上,还应该反映在区域的聚集程度上。某些距离较远,但聚集程度较高的对象,在簇内的重要性也应当有所表现。密度自适应簇内不平衡粗糙K-means聚类算法使得算法均值中心迭代过程,移动步长更加准确,灵活性更强。实验仿真结果表明,算法具有很高的聚类精度,并且提高了算法的收敛速度。综上所述,基于粗糙集、粒计算理论的数据挖掘算法研究,为处理数据挖掘算法中的不可分辨问题提供了有利的支持,具有较好的理论价值和意义。
其他文献
近年来,我国已经成为全球遭受反倾销最多的国家之一,这其中的原因不乏贸易保护以及政治原因,但是国内出口企业在会计核算中没有提供详细的出口产品的成本计算方面的资料及企
试验用薄层色谱—紫外可见分光光度法测定了葡萄酒样品中SudanⅠ、Ⅱ、Ⅲ、Ⅳ号的含量。样品经乙腈溶解,超声振荡后萃取,分离提纯后用乙腈定容,点样、展层,刮取与标准品同水
股权转让是商事交易中最常见的活动之一,不仅关系着公司的稳定经营及有效运转,同时也对社会资源,特别是社会资金的配置有着重要的影响。“何建刚与何显玲股权转让纠纷上诉案”是
随着全球一体化的深入发展,各国之间在政治、经济、文化、科技、教育等各方面的交流越来越频繁,而翻译作为使用不同语言的人们之间互相交流、互相沟通、互相学习的重要手段,
液压泵退化特征提取是实现故障预测的关键环节。在液压泵性能退化过程中,其振动信号复杂度高、非线性强,难以有效地提取退化特征,为此,本文提出一种基于敏感分量融合的退化特征提
在煤炭清洁高效转化技术中,煤气化技术可谓是其中的核心,对此,文章通过下文对大型煤气化技术的研究与发展上进行了阐述,从而为相关企业及研究人员提供一定的借鉴作用。
生物质能是一种分布广、资源量丰富的清洁可再生资源,在各种生物质能利用转化工艺中,基于其热解和燃烧的热化学转化利用途径由于具有巨大的产业化前景而备受重视。但是生物质
现代媒介自诞生之日始,就一直没有停止过对社会法律体系和制度的关照。法律本身存在的客观理性对任何社会形态都形成必要的张力。而关注法律的建立健全早已成为民主社会、国家
把科学游戏贯彻在幼儿的学前教育活动当中,有助于推动幼儿的身心良好发展。本文针对把科学游戏融入到幼儿的学前教育的必要性以及实施对策展开了分析和研究。
海上丝绸之路历史悠久,始于汉代,唐代中期发展后成为沟通中国和西方主要的通道。各种不同的人在不同的时代,在古老的海上丝绸之路进行着各种贸易往来,海上商人、使者、僧侣和