基于分类效用的无参数聚类算法及其改进研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yeshi804883653
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于大多数现有的聚类方法都没有考虑类别的层次结构以及用户的分类角度,得到的聚类结果对用户来说往往不易理解,并且这些方法都需要用户输入一些敏感的参数,使得聚类的质量难以控制。因此,针对这两点不足,本文引入了认知心理学中基本层次类别的概念,将聚类问题转化为寻找基本层次类别的问题。根据基本层次类别的特点,本文将认知心理学中的分类效用与层次聚类相结合去寻找文本中的基本层次类别,并通过卡方检验、BDC以及离散类的划分来减小噪音特征和异常点对寻找基本层次类别的影响,提出了一种基于分类效用的二次文本聚类算法。该算法是一种无参数的文本聚类算法,它可以从用户的角度对文本进行聚类,自动找到文本中的基本层次类别。同时,本文还对基本层次类别之间的关系进行了可视化,方便用户对基本层次类别进行分析,并为离散类的判定提供决策支持。由于分类效用值受噪音特征的影响很大,而且它无法用于寻找连续型数据中的基本层次类别,因此,本文对分类效用的定义公式进行改进,提出了一种新的基于熵的分类效用函数(Entropy-based Category Utility,ECU),并利用ECU去寻找数据中的基本层次类别,提出了一种基于Entropy-based Category Utility的聚类算法。该算法可以同时应用于文本数据和连续型数据,并且相比分类效用,ECU对特征的依赖性更小,适应性更强。为了验证算法的有效性和优越性,本文采用了两个文本数据集和六个连续型数据集进行实验,实验结果表明,本文算法可以得到比其他算法更加自然的聚类结果。
其他文献
改革开放以来,我国企业数量不断增加,加重了国家对企业信息管理的负担,根据企业经营范围文本对企业进行经济行业分类,既能分析国民经济行业的发展情况,也有利于国家科学的管理企业信息。本文使用深度学习方法对企业经营范围文本进行行业分类。主要工作如下:首先设计一种自动化标注方法对爬取到的无标注企业数据进行类别标注,为后期研究提供可训练的数据。该方法先对获取的企业文本数据进行预处理提高文本质量,然后根据词频、
孝文化是中国传统文化的核心和基础内容,孝顺父母一贯是人们所称赞的品质。孝道作为最具中国特色的文化现象,对我们的心理和行为产生了深远的影响,它也因此成为本土心理学研究者的关注焦点。尽管对孝道已有比较丰富的考察结果,但是孝道行为的产生机制缺乏深入探讨。因此,本研究结合问卷调查与实验研究的方法,以成年子女和大学生为调查对象,探讨父母孝道行为对子女孝道行为的影响及其作用机制,同时扩展到社会层面,考察孝道宣
随着中共中央国务院关于深化医药卫生体制改革意见的实施,以及相关政策的出台,国内医药市场发生了较大的变化。此次改革力度大、影响深,反映出政府整顿医药产业的决心。因此,
研究目的:衣原体是引起人类性传播疾病的主要病原体之一,女性泌尿生殖道衣原体感染会引发炎症性病变,从而导致包括输卵管积水、流产、异位妊娠在内的多种疾病[1,2,3]。糖原合成酶A(GlgA)是一种新的衣原体分泌蛋白,存在于衣原体包涵体内和宿主细胞的胞质中,GlgA与衣原体的生长和增殖密切相关,可能是衣原体诱导输卵管积水等病变的重要致病因子。本研究旨在探讨GlgA对衣原体致病性的影响,分析GlgA在衣
集成电路的发展使得片上网络成为多核片上系统设计的主流方案,特征尺寸的缩减以及网络复杂度的增加,使得路由器架构中的交叉开关易出现故障问题,此外网络也容易发生严重拥塞,
本文通过选取亚热带两种代表性植物杉木和米槠,进行鲜叶浸提DOM和N添加,通过室内120 d培养试验探究DOM和N添加对亚热带森林土壤有机质矿化以及对微生物群落结构的影响。杉木
人类很容易感知周围世界的三维结构,同时,人类多年来的梦想就是让计算机具有类似于人类的视觉注意特性。视觉显著性检测模拟人类视觉系统的行为,自动生成目标图像或是视频序
背景:左室右房通道(left ventricular to right atrial shunt,LV-RAS)分为先天性和继发性两类。先天性左室右房通道是一种罕见的先天性心脏病,又称为Gerbode缺损,是由于心内膜垫发育异常导致左心室与右心房之间存在异常分流。继发性左室右房通道是由于感染性心内膜炎、心脏手术和下壁心肌梗死等多种原因导致的左心室与右心房之间的异常分流。心房颤动(房颤)是临床上常见
由于环境污染和能源短缺的问题日益严重,使用清洁环保的微电网技术逐渐受到人们的重视,直流微电网具有能量利用效率高、损耗低、可控性强等优点。但由于直流微电网中的分布式
作为一种新型的绿色能源转换器件,染料敏化太阳能电池(DSSCs)因其成本低、制备简单等优点,成为研究热点之一。DSSCs主要由光阳极、电解质和对电极三部分组成。光阳极具有传输