基于K-modes算法的混合数据聚类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jwqpl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代,从海量数据中发现潜在的价值信息是数据科学重要的研究方向,聚类分析作为机器学习学科领域内的一种无监督学习方法,被非常广泛地应用于数据挖掘技术中.它将物理或抽象的目标对象按照某种相似性规则进行划分,聚成多个簇,同时满足簇内对象间相似性大,簇间对象之间相似性小这一基本条件.这一条件使得度量对象之间的相似性就成为了算法的核心问题之一.聚类分析可以应用于不同的数据集,不同的数据集包含不同类型的属性.数据属性细分为数值属性(Numerical attribute)、无序分类属性(nominal attribute)、有序分类序属性(ordinal attribute)三大类.有些数据集的数据属性是单一的,有些数据集同时兼具数值属性、有序分类属性、无序分类属性中的两种或三种,被称为混合型数据.对于混合型数据,合理地确定相似性度量方法成为算法能否有效实现的关键点和难点.已有的一些混合数据距离度量方法主要针对混合数值属性与无序分类属性的数据.对于混合有序分类属性与无序分类属性的数据,相关的研究却较少.本文着重研究了用于混合有序分类属性与无序分类属性的数据的聚类算法.为了构建有序分类属性的距离度量公式,本文首先确定了无序分类属性的距离度量公式,这是有序分类属性距离度量公式建立的前提条件.有序分类属性与无序分类属性的本质差异体现在有序分类属性属性值之间存在比较关系,这种关系可以通过相邻两属性值之间的距离数值来刻画,基于得到的无序分类属性属性值之间的距离数值,就能确定有序分类属性属性值之间距离数值的合理范围.其次,对有序分类属性蕴含的顺序关系,给出了描述不同属性值之间顺序差异的序数差函数;再次,根据已确定的距离数值范围以及序属差函数,构建了有序分类属性的距离公式;最后,计算样本点与质心距离之时,引入了簇内各属性值的比例作为总体距离公式的重要参数,最终给出了混合分类属性数据的距离度量公式.在应用了新的距离度量公式后,原聚类算法扩展到了混合有序分类属性与无序分类属性的数据集上.通过在多个混合属性的数据集上的实验仿真,并以ACC评价指标进行评估,结果表明,所提出的距离度量公式及改进算法表现出了良好的性能.
其他文献
文章以南瓮河自然保护区森林火灾调查数据为基础,阐述了火灾造成森林资源损失情况,在此基础上对火灾烧死木清理利用价值进行了分析,并对火灾烧死木清理及火烧迹地恢复更新提出建
内容管理系统(CMS)具有管理方便、易于维护等特点,在高校信息化建设中得到广泛应用。针对国内流行的JEECMS表示层标签的调用构架进行分析,在此基础上结合建立信息中心部门网站
强化未来教师气质的培养,是高校师范教育的重要任务之一。要从注重教育实践和教育体验,注重提高人文素养和审美能力,注重礼仪教育和提升教师形象三方面入手,全面加强师范生的
本文综合考察了1995年以来国内外关于劳动复杂程度度量问题的研究,将其分为五大类型,并进行了分类评述,对劳动复杂度研究的发展方向提出了看法.
随着新能源动力领域的发展,“十三五”规划对开发具有更高性能的电极材料提出了迫切的需求。三元正极材料因其具有低成本、高比能量、高成本效率等特点,成为了动力锂电电极材
在当今国际间文化交流频繁的时代,各国都开始重视对本国文化的发展与保护。博物馆文化商品具有教育意义与流通性,可以作为传播历史与文化的重要途径。与此同时,随着消费者心理需求的提升,商品的导向已从原有的机能需求提升至文化、体验等需求。因此,以博物馆文化为导向的商品设计成为了近年来的产品的发展方向。随着社会多元化的发展,人们的生活方式与消费需求也愈发多元化,产生了对产品设计的新要求。为了满足市场与用户的这
随着能源结构的调整以及清洁能源的普及,传统取暖方式产生的环境污染、能源浪费等现象急需得到解决,电热取暖成为了既能满足科学发展战略,又可以提高采暖舒适性的最佳选择。近年来,电热材料的研究有了长足发展,发热温度范围广、使用安全稳定、电热转换效率高、操作控制方便的节能环保的电热材料成为了研究的热点。但现阶段研究只局限于传统的金属系或碳系复合电热材料,或将同系填料混合,或将不同系填料混合,没有从根本上解决
六朝书法美学在汉代的基础上进行了多向展开和细化,理论潜体系已初步形成。这个时代的书法创作处在积极拓展艺术表现可能性,追求变化多样、趣味丰富的历史阶段。与此相应,书法美
普通物理光学部分关于光波的干涉和衍射内容比较难理解。电大普通班的学员在学习这部分的内容时,虽然认真看了电视录像课,我们作为辅导教师也按教材一步步对学生进行了辅导,自我
莫斯科地铁是经历了上世纪30年代文化领域的一系列改革之后苏联建设的第一个大型建筑群。斯大林时期建成的莫斯科地铁以其规模宏大、风格多样、选材考究、装饰奢华的特点闻名