基于粗糙近似集理论的聚类算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:yxhetao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会人工智能技术飞速发展,数据挖掘作为最重要的领域之一,受到人们的极大关注,并且已应用于模式识别、生物科学、自然语言处理等领域。在数据挖掘中,聚类分析是一种分析处理数据的重要技术手段,包括无监督聚类和半监督聚类。无监督聚类是根据无标签数据的信息间相似性对它们进行分组。半监督聚类能够通过对少量有标签数据的信息分析,完成对大量无标签数据的划分,也具有广泛应用。粗糙集理论是通过已知的知识库,对不精准或不易确定的知识进行表示。本文将粗糙近似集理论与无监督Fuzzy c-means(FCM)算法和半监督K-means聚类算法相结合,在原算法的基础上进行改进,实验结果表明两个改进算法的性能都较原算法得到提升。论文的主要工作如下:(1)传统FCM算法运行稳定,易于实现,但在聚类时边界中的数据会容易被划分到错误的类,从而降低了算法的准确率。针对这一问题,利用粗糙近似集理论,将FCM算法与其相结合,提出了 Rough-FCM算法。首先,Rough-FCM算法根据预设的阈值,将数据划分到相应类别的下近似集或边界区域集,每个数据可以属于多个类的边界域集,但只能属于一个类的下近似集。其次,利用新的公式对聚类中心和隶属矩阵进行更新。最后根据得到的集合执行二次聚类得出最终聚类结果。通过对Rough-FCM算法和另外三种聚类算法的实验结果比较,本文算法具有优越性。(2)针对高维稀疏数据集中许多属性值为零的特性,将粗糙近似集理论与半监督K-means算法结合,提出Rough-kmeans算法,对文本数据集的属性进行选择。首先计算有标签数据集的所有属性中,属于某个类的非零数据个数与属于其他类的非零的数据个数的比重,分别选出最大比重的属性作为每个类的关键属性,并归入关键属性集;然后根据所得关键属性采用K-means算法对无标签数据进行聚类,并计算聚类中心;接着利用粗糙集近似集的思想,计算无标签数据中每个属性的信息增益,并将信息增益与上近似阈值和边界域阈值进行比较,根据提出的规则将其划分到相应近似集中,完成对属性的一次选择;逐次循环增加聚类相关属性的个数,并更新聚类中心,提高聚类准确率。实验结果显示,Rough-kmeans算法可以筛选出每类中重要的属性,过滤了无效信息,准确率明显提升。
其他文献
我国自古以来就有重农的传统,农业和乡村都是历代统治者最为关心的问题,习近平总书记更是在中国共产党第十九次全国代表大会上正式提出了乡村振兴战略,并将其放在与科教兴国
近年来,随着高速铁路及高速公路的普及,越来越多的线路穿越黄土区,已建成的兰新、郑西等高铁修建了大量断面达到150 m2左右的黄土隧道,黄土隧道的设计施工已成为西部交通网络不可逃避的技术难题。已建黄土隧道施工过程中曾出现不少地面沉降过大、地面裂缝宽大、渗漏水、衬砌开裂等问题,而大断面黄土隧道在施工时对土体扰动区域更大,极易产生突然性坍塌和大面积地面开裂等灾害。初期支护是保障隧道施工安全和隧道稳定的关
随着欧六、国六等日趋严格排放法规的颁布和实施,车用内燃机将面对前所未有的压力和挑战。涡轮增压作为功率强化、减排增效的重要技术措施,已成为应对上述问题的首要选择。导叶可调的混流式涡轮具有易于调节、工况适应性好等优势,是车企选择的主要形式。但传统可调导叶必然存在叶端间隙,所带来的流动损失严重影响混流涡轮及发动机整机性能,因此减小或消除叶端间隙进而控制叶端泄漏流动方法备受关注。本文基于已有的部分转动可调
本交笼养模式可满足富集式笼养模式的条件并且通过父母代蛋鸡自然交配繁衍后代,鸡只福利化养殖水平明显增高。目前我国本交笼养模式应用仍处于起步阶段,要取得该模式的突破性进展,有必要开展针对该模式的家禽行为学研究。行为研究要求准确地辨识行为,并实时地将行为精确地记录在介质上以备后续的统计分析。传统人工监测容易伤害鸡只个体,并且劳动量大、效率低。鉴于各种行为检测的有效性和复杂性,可利用笼内种鸡个体轨迹分布模
研究目的:本研究通过检测牙周健康人群、重度慢性牙周炎(Chronic periodontitis,CP)患者、侵袭性牙周炎(Aggressive periodontitis,AgP)患者人外周血淋巴细胞(Human peripher
随着我国老年人口数量大、增长速度快,现阶段老龄化问题与经济社会转型相矛盾,“老有所养”国家战略的实现已从家庭养老模式转变为社会化和专业化相结合的一种新型社会养老服务模式。通过社会化途径解决家庭养老的实际困难,有利于实现安定团结、促进社会和谐发展,通过以居家养老、社区养老、机构养老等方式相结合的方式,为老年人提供全方位的社会养老服务,在全社会形成尊老爱老敬老的社会风尚,使得老年人度过健康幸福、生活有
2013年,习近平总书记在湖南湘西调研考察期间提出了精准扶贫的概念,在此基础上,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》提出了精准扶贫的战略,精准扶贫战略的实施依托一定的组织平台。农民专业合作社内嵌于农村地区,与农户天然地交织在一起,是农户自发成立的互助性合作组织,被认为是具有脱贫效率的组织,在提高农户收入、增加就业和繁荣农村经济方面有重要的积极作用。本文综述了国内外关于农民合作社
在计算机视觉领域,深度学习技术的发展取得了比传统方法更好的性能。但是深度学习模型在不断提高性能的同时,还带来了诸如网络参数大、模型结构复杂、计算成本高以及内存消耗大等缺点,这使得在资源有限的嵌入式移动设备上运行深度学习模型变得困难。因此研究如何降低深度学习模型尺寸、降低计算量,在移动端部署深度学习具有重要意义。针对上述问题和特点,本文研究了卷积神经网络的压缩和优化技术,对轻量级神经网络模型Mobi
优化一种适合安徽黄山某旅游演出的半开放建筑中庭的供暖方案,对比分析多种供暖方式的特点,初步选取喷口送风+地面辐射、喷口送风+燃气红外辐射、喷口送风+瓦楞板踢脚线散热
随着科学技术不断发展和进步,微机电系统(MEMS)技术变得越来越成熟,逐渐推动了惯性传感器领域的发展。MEMS陀螺仪是一种测量旋转物体角速度的惯性传感器,区别于传统的陀螺仪,前者主要是基于科里奥利效应的原理,利用振动的质量部件代替传统的动量轮来测量角速度的,后者主要是利用角动量守恒的原理。与传统陀螺仪相比,这种陀螺仪具有体积小、质量轻、功耗低、抗过载能力强、价格低廉等优点,已经广泛应用于航空航天和