基于图聚类的多维数据和软件聚类研究

被引量 : 0次 | 上传用户:dayanjing10000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类作为一种无监督的模式分类方法,在语音识别、字符识别以及数据挖掘(多关系数据挖掘)、时空数据库应用(GIS等)、序列数据分析等领域具有广阔的应用前景。聚类研究按照数据建模方式可分为多维空间上的聚类以及图聚类(又称为图上社团发现)两个主要方向。随着各类数据规模持续增长,如何对海量的数据进行高效和有效的聚类分析是成为对多维数据的聚类研究一个巨大挑战。而对于图上的聚类而言,图聚类的特定的应用背景以及其可视化的过程需求的多样性是当前图聚类在实际应用中的主要挑战之一。针对上述挑战,本文研究了在多维数值型向量数据和软件模块图数据上运用图上聚类技术实现高效和高质量聚类的聚类算法。主要工作分为两大块。首先对多维空间上聚类所面临的处理海量数据的挑战,本文中提出了基于K-Means的KBAC算法,该算法采用K-Means算法作为预聚类过程,能够自适应确定最佳聚类核数目并进行聚类。其核心思想是将样本空间聚类问题转换为图上社团发现问题。并进一步研究了该算法在云平台上进行实现和优化方案。理论和实验证明,通过在云计算框架下优化实现K-Means预聚类过程的并行化,KBAC算法能够高效地对大规模数据进行自适应聚类,并获得高质量的聚类结果。另一方面,针对图聚类在不同应用背景下问题的多样性,本文探索了软件聚类这一领域内的图聚类。在本文中提出了基于入口和PageRank的两阶段层次聚类算法和对软件聚类输出的模块的命名算法,并探索了对软件聚类结果进行粒度可调节的动态可视化的实现。并基于上述算法的设计,开发了软件聚类工具原型SCuV。该工具从软件源代码中提取出软件模块间的调用图,采用提出的算法进行聚类并实现可视化。案例分析表明该工具的聚类效率较高,能够给出具有一定语义的软件模块层次并实现了粒度可调的可视化,具有较好的应用前景。
其他文献
当前,脱贫攻坚已由全面推进转为集中总攻。今年以来,台前县认真贯彻上级关于脱贫攻坚各项决策部署,坚持把脱贫攻坚作为头等大事和第一民生工程,以脱贫攻坚统揽经济社会发展全局,把
在我国经济比较发达的东南沿海地区,产业聚集的现象十分明显,尤其在发展速度领先全国其他省份的广东,产业集群与专业市场通常是共同存在的。产业聚集、专业市场和经济增长之间可
寻根文学是当代文学从启蒙立场转向多元化立场的重要表征,受到了世界文化寻根、反殖民主义以及文化启蒙各种思潮的影响,因此在表述和评价民族文化时产生价值分野,形成反思型
从改革开放三十多年以来,随着我国的综合国力不断的日益壮大时,国内的城市化与交通基础建设也得到了突飞猛进的发展,在建设开发西部山区和城市化进程过程中,为了使驾驶员在行
灌溉水有效利用系数是灌溉工程规划设计中一个重要指标,工程设计规范对其计算方法有明确规定,从灌溉用水有效利用系数获取的方式方法来看,综合反映了设计水平年一个灌区“标
随着我国社会主义市场经济改革的不断深入发展,市场竞争日益激烈。企业营销网络作为企业与市场对接的最前沿,自然成为企业产品完成销售、实现增值的重点环节。作为实现企业利润
随着市场经济的快速发展,中国的经济活动越来越活跃,计划经济时代留下的印记逐渐清除,各种各样的价格垄断行为层出不穷,形形色色的垄断行为不仅影响公平竞争、阻碍市场经济的健康
目的 回顾性研究左、右半结肠癌之间在临床特点、病理组织学及微卫星不稳定性(MSI)等方面的差异。方法 收集165例左半结肠癌(LCC)及85例右半结肠癌(RCC)根治性手术切除标本的临床病
提出基于LM-BP神经网络进行防气窜能力评价方法,选取地层系数、静液压力系数、泥浆清除系数和水泥浆性能系数作为输入参量,将样本的防气窜能力作为输出量,在进行训练时采用LM
针对现有人体动作识别方法没有考虑到非人体目标的作用,提出一种基于时空图像分割和目标交互区域检测的人体动作识别方法。在视频流中检测出人体轮廓,并将其进行时空图像分段