基于聚类学习的分类算法及模型优化

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xinxinzhang2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类和分类是数据挖掘中的基本任务。长期以来,关于聚类技术在分类中的研究主要集中在应用聚类对训练数据进行数据预处理,期望通过减少噪音数据的影响提高最终的分类精度,因此,如何充分地利用聚类信息指导分类是一个值得研究的问题。  非线性数据由于分布复杂,因此用简单的分类模型难以得到满意的分类精度。如果使用复杂的分类模型去逼近训练数据,又会有过拟合的问题,使得分类模型的泛化误差偏大。  本文采用了一种新的分类方法:基于簇学习的分类模型。首先用聚类方法划分数据形成一棵聚类树,利用聚类信息训练基本分类算法。通过在模拟数据和真实数据上的实验,我们验证了该模型在非线性数据分类问题中有更高的分类精度。在此基础上,我们研究了模型选择的问题,提出了模型优化选择算法。  本文的主要工作贡献有:  (1)提出了一种应用在非线性数据上的间接分类模型,以簇标作为分类标签,将基于类标的分类问题转化为基于簇标的分类问题。从分类训练的基本单位来看,新分类模型的基本单位是聚类后形成的数据簇,相比传统的以样本为基本单位的分类模型是一个创新。  (2)扩展和丰富了DCC分类结构。当前的关于DCC模型的研究,都是利用聚类形成的数据簇,根据最短距离分类。本文提出的DCC拓展分类模型,把数据簇用作后续的分类训练。分类算法的不同会派生出新的DCC分类结构。  (3)在模型选择问题上提出了优化算法,并且通过在UCI数据集上的实验,我们验证了这种模型选择策略的有效性。  基于以上研究成果,本文设计了基于聚类学习的分类系统。该系统由数据读入模块、数据预处理模块、聚类模块和分类模块组成。编程实现了这个原型系统,为算法研究打下坚实的基础。
其他文献
软件复用是解决软件危机比较现实有效的方法之一。基于构件的软件开发CBSD(Component-Based Software Development)方法既是软件复用的切实可行的途径,也是实现软件工业化生
无线多媒体传感器网络(Wireless Multimedia Sensor Networks,WMSNs)是一种支持传输图像和视频等信息服务的无线传感器网络,在环境监测、移动医疗、交通监测等诸多领域都具有
肖像画是一种描绘具体人物形象的绘画。人脸是人体最富有个性化的部分,人脸特征的不同体现着人物之间的个体差异,一幅逼真的肖像画不仅能抓住人物的面部特征,而且能刻画出人物的
从1972年发现NP-完全性以来,很多学者就对NP-难的优化问题能否有快速算法来计算其近似解感兴趣,然而对大部分这类问题,寻求有效的近似算法都令人失望。于是尝试来证明求其近似解
网格技术是一种新兴的基于Internet的应用技术,网格技术的出现使互联网上所有资源的全面连通成为可能。但是,网格系统的异构性、动态性、多域性等特点使得网格安全问题比普通
无线传感器网络在世界各个领域都有着相当巨大的应用价值,它已经引起了世界各国在工业、农业、军事、环境、医疗等传统领域以及家用、保健、交通等许多新兴领域方面的极大应用
学位
近几十年来,数字图像,视频的处理技术一直受到广泛关注。不仅是专业的影视、动漫企业,更多的非专业用户希望对自己拍摄的媒体素材进行编辑处理工作。图像,视频的分割技术在素
随着信息技术的发展,图像处理技术已经成为科学研究的有力工具。在医学图像处理领域,应用分析处理系统对减轻医生的阅片劳动强度和提高诊断精度具有重要的意义,而图像分割是图像
随着信息时代的到来,人们对数据交互和通信的需求越来越大。大多数的数据和信息可以通过传统的路由-交换互联网有效传输,但在一些网络设备难以架设的偏远山区以及在河流湖泊
数据挖掘技术通过对数据库中的数据进行挖掘,可以得到很多重要的知识,包括分类知识、聚类模式、关联规则以及序列模式等等。其中关联规则是通过分析数据库中频繁出现的数据之