基于误差界估计的聚类树分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lxf_0077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式分类是数据挖掘的一个重要研究分支,其任务是根据给定的特征集与类标集训练一个数学函数,该函数也被称为分类器,以便对新出现的对象进行类别预测。自上世纪六七十年代以来,模式分类一直受到国内外学者的关注。然而,随着研究的深入,近年来数据挖掘领域涌现出许多新的分类问题。例如:模型不匹配问题、不确定性问题、小样本问题、样本不均衡问题等等。越来越多的学者认识到,常规的分类技术在解决这些复杂的分类问题上存在一定的难度。常规的分类技术是一种有监督的学习方式,即在完全信任特征与类标的前提下,训练一个分类器,并以某种准则去逼近一个函数,以发现出一种特征与类标之间的关系。但是,由于模型不匹配、类标不确定性、有类标样本数目过少等原因,直接根据特征与类标寻找分类函数存在一定困难,因而这种有监督的学习方式并不适合处理复杂的分类问题。相反,基于聚类的分类方法(Clustering-Based Classfication,CBC)并不是完全相信训练集的类标信息,而是通过类与簇的相互转换,在数据的空间特征与类标信息之间寻找平衡,是一种弱监督的学习方式。与有监督学习方法相比,弱监督学习方法受类标的误导程度更低,因而泛化能力更强,更适合于处理上述复杂的分类问题。  本文着重研究的聚类树方法是一类基于聚类的分类方法。本文以误差界估计为理论基础,研究了文本聚类树、半监督聚类树、主动半监督聚类树等具体的分类算法,来解决一些实际的应用问题。主要研究内容包括:⑴分析了CBC方法与传统分类方法在原理上的不同,并解释了这种弱监督学习方式可用于解决某些复杂分类问题的原因。提出了置信误差公式,该公式可以用于预测分类误差和优化分类模型。⑵在基于距离度量决策的CBC模型研究中,提出了一种基于Kernel距离的DCC算法(KDCC),该算法解决了簇之间不均衡的问题。⑶针对文本数据,扩展了k-means系列算法,提出椭球k-means算法。该算法既采用更适合文本数据的余弦距离作为相似度度量,又采用一种加权机制来突出重要词并抑制噪声词。基于椭球k-means算法,本文提出了一种聚类树算法,以适合文本数据的分类。⑷针对小样本问题,提出了一种半监督聚类树算法,该算法根据所用聚类算法的不同,又有两个变种,分别针对常规数据分类与文本数据分类,该算法在样本数极少的情况下优于目前常见的半监督算法。⑸结合主动学习与半监督学习思想,提出了主动半监督聚类树算法。此外,本论文在讨论了训练代价和分类性能之间关系的基础上,提出了一个基于性价比的主动半监督分类系统。该系统能够根据最优的性价比自动终止学习过程,弥补了目前主动学习算法中没有类似机制的缺陷。
其他文献
转码(Transcoding)是一种将已经编码过的信号转换为另一种信号的技术,在视频上,视频转码的主要应用包括码率控制,帧率控制,分辨率调整以及视频格式转换等。然而,传统的视频转码方
云计算是一种流行的基于互联网的计算方式。它计算互联网上的硬件资源以及软件资源,并将这两种资源虚拟化成服务交付给个人用户和企业。而云计算系统就是建立在此基础上,它由连
随着多媒体技术的发展,数字媒体的应用也越来越广泛,而伴随着这些应用的同时,数字产品的盗用、篡改等侵权问题也一并出现。数字水印作为一种技术手段,可以有效的保护数字产品的版
许多患者都患有神经症状或神经退行性疾病,扰乱了大脑至脊髓及其最终目标即肌肉的正常信息流,进而影响人的行动意图。基于脑电的脑—机接口(Brain-Computer Interface, BCI)作为
输出的路径集合在所有的可能解中具有最小的长度之和。现有的分布式寻找连接s和t的多条不相交路径的方法既不能保证答案正确性也不能保证结果最优性。虽然有一些集中式方法可
随着互联网技术和多媒体信息技术的飞速发展,计算机已经走进了千家万户。互联网使信息交换的形式多种多样同时不受空间限制,使得数字多媒体信息在网上传播越来越便捷,给人们
齿轮形状复杂,测量参数较多,使得齿轮测量一直成为几何测量中的难点。传统的齿轮参数测量方法,往往带有测量人员的主观误差,且存在劳动强度大、检测效率低等一系列缺点,尤其是模数
德国Wille教授于1982年首次提出了形式概念分析理论,它是一种能够从形式背景中进行数据分析和规则提取的工具。对于形式概念分析理论,现有的研究主要集中在形式背景知识的获
WSN的应用中,无论是硬件设计还是软件层面,都将节省能量放在研究工作的第一位。路由机制作为WSN的关键技术,必须将降低能量开销和延长网络生存期放在设计工作的首位。本文选取PE
相似字符串查找在现实生活中的应用非常广泛,例如相似网页检测、数据清洗、电商网站的推荐功能、蛋白质功能预测等。相似字符串查找多是用一个给定的相似性函数来判断两个字