基于结构化图学习的集成聚类研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:houboweike
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今随着科技的不断发展,在社会的发展历程中,数据扮演越来越重要的角色。海量数据的利用对于生活或者商业中构建合适的模型来预测特定的任务有很大的优势。所以,在社会实践应用中大数据无处不在,如生物医学领域的疾病数据,计算机视觉领域的图像数据,自然语言处理的文本数据的使用等。为了能够更好的挖掘数据潜在的价值,挖掘数据的技术成为了近段时间来的研究热点,如:聚类和推荐算法等。在机器学习和数据挖掘中,聚类是很重要的话题。如今,随着海量的无标签数据的使用,使得聚类效果越来越好,与此同时聚类算法的鲁棒性和稳定性也越来越重要,在已有的数据没有先验知识的情况下,基于一种样本间相似性的度量,将样本点划分到不同的簇中。聚类分析的目标就是使得簇内的样本具有很高的相似性,同时簇与簇之间的样本具有很低的相似性。现阶段单个的聚类算法具有较低的鲁棒性。在没有先验知识的情况下,对于一个给定的数据集,也很难决定选取哪个聚类算法更合适。因此,先对数据用单种或多种聚类算法得到多个基础聚类结果(简称基聚类结果),再融合这些基础聚类信息得到更好的聚类结果的集成聚类方法受到了大家的关注,研究实验表明,集成聚类方法的结果具有更强的鲁棒性和更好的聚类效果。现今集成聚类方法的研究主要是基于投票机制,基于标签分配,基于成对相似性和基于图这几种算法,这些算法中,由于图聚类算法对于任意形状的样本相似度矩阵有更好的聚类效果,基于图的集成聚类算法常常具有更好的聚类表现,本文提出了基于图的集成聚类优化算法,然而现有的基于图的集成聚类算法往往存在以下问题:集成聚类算法需要融合基聚类结果,由于单个聚类算法可能会得到比较差的聚类结果,这些差的基聚类结果会对最终的聚类过程造成很大的影响。不同的基聚类结果产生相似度矩阵的结构是不同的,在融合过程中,如果只将基聚类结果产生的相似度矩阵相加作为最终聚类的相似度矩阵,很难保证能够得到一个清晰簇结构的相似度矩阵。本文提出了可以有效克服上述问题的集成聚类优化算法:提出了结构化集成聚类算法(SEC算法)。该集成聚类算法为每个基聚类结果构建一个权重用来评价每个基聚类结果的质量,同时增加了一个基于谱聚类原理的正则项,可以很好的避免以上问题。提出了二步图结构化集成聚类算法(SBCE算法),本文在SEC算法的基础上拓展,为克服大数据处理的难点,该算法在原始数据集上寻找一定数量能够代表周围原始数据的锚点,通过计算锚点和原始数据点构造相似度矩阵的方法,即最大程度通过样本与锚点间的联系保留了样本之间的联系,又能够大大降低时间复杂度和空间复杂度。提出了二步图投影学习的集成聚类算法(SBGL算法),本文在SBCE算法的基础上,为了克服基础聚类的聚类个数必须相同才能进行集成聚类的缺陷,该算法通过为每一个基础聚类结构构件一个投影矩阵,使得不同聚类个数的基聚类结构能够统一尺寸,避免了需要基础聚类必须有相同的聚类个数的要求,同时也很大程度上保留了样本间的信息。实验中选取了基准数据并分析了算法的参数以及选择的锚点数对聚类评价指标的影响,最终将提出的三种集成聚类优化算法与近年的集成聚类算法进行对比后验证了算法的优越性。
其他文献
近年来,由于我国社会老龄化现象日益严峻,CHARLS提出了“健康老龄化”的社会发展目标。截至2019年,我国非失能老年人占总老龄人口81.8%,失能老年人占比18.2%。老年人一旦失能,需要专业的医疗护理,因为子女不能提供专业的医疗照护,失能老年人多为选择养老机构或者医疗机构照护,为家庭带来经济负担的同时也会为社会养老问题带来巨大压力。因此,为减轻社会和家庭的负担,稳定并提升81.8%占比的非失能
随着国民经济发展和夜间社会活动的增加,夜间人工光不合理使用而带来的光污染现象越来越严重。量化光污染可以用于指导人工光的合理设计与应用,从而从源头上降低光污染。传统的光污染量化大多集中在亮度和照度层面,未考虑光源色度学指标对光污染程度的影响。然而实际中光污染的程度不仅取决于光源亮度,还受光源光谱等多个因素影响。传统的研究利用遥感信息,航拍等光污染测量方法。本研究以生态、节能为出发点。根据高层建筑周边
随着科技的高速发展,金融科技企业在我国金融行业中蓬勃发展。我国金融科技标准体系与监管体系仍存在不足,其所带来的诸多风险也给我国金融市场的秩序稳定带来了挑战。本文通过对网络上出现频率较高的各类风险进行汇总及分析,基于此总结出金融科技企业监管及标准化机制可能存在的问题,进行针对性分析并提出相应的对策建议。
基于我国城市土地资源越来越紧缺的发展趋势,国内高校的开发强度逐步提高。高密度校园中也开始出现以空中步廊系统设计为导向的校园规划策略。但由于高校空中步廊系统设计理论尚不成熟,大部分高校的空中步廊系统不成体系,使用率较低,大多未达到设计预期。香港与深圳作为国内典型的高密度城市,在高密度校园的空中步廊建设上具有一定的实践经验。本文通过对深港两地现有高密度校园的空中步廊系统进行调研分析,将筛选的重点案例按
学位
纤细裸藻(Euglena gracilis)富含副淀粉,是一种新型的保健食品。副淀粉具有降低胆固醇、降低血糖、抗病原微生物、抗肿瘤、保护肝脏和免疫调节等多种生物活性,有望开发成营养保健品或免疫佐剂。然而副淀粉的免疫调节机制尚未明确,极大地制约了副淀粉的开发应用。本论文以超声和碱化的方法制备裸藻副淀粉,探究其对RAW264.7巨噬细胞的免疫激活效果及机制,主要内容及结构如下:(1)优化了裸藻副淀粉的
拓展金融科技应用,应当树立以人民为中心的发展理念,坚持以人为本,不能本末倒置,舍本逐末。要注重用户体验,体现人文关怀,营造友好、安全的服务环境。同时,金融科技本质上是一种技术驱动的金融创新活动。无论叫金融科技还是科技金融,始终不能忘记金融属性,不能违背金融运行的基本规律,否则必然会受到市场的惩罚。
期刊
首先以盐酸分解磷矿制备酸解液,再通过向酸解液中加入硫酸制备硫酸钙晶须。实验考察了加料时间、搅拌转速、硫酸浓度、硫酸根与钙离子物质的量比、氧化钙质量分数、反应温度对硫酸钙形貌及晶须长径比的影响。采用扫描电镜观察硫酸钙形貌并用Image-Pro-Plus对硫酸钙SEM图进行分析得到硫酸钙晶须的平均长径比。实验得到硫酸钙晶须的最佳制备工艺条件是:加料时间为20 min、搅拌转速为350 r/min、硫酸
全景视频作为一种新颖的视频格式受到了人们的广泛关注,而虚拟现实游戏的热潮进一步促进了全景视频的发展。全景视频提供观看者沉浸的视频体验,视频的内容呈现于立体球面。本文主要研究全景视频视口预测和全景视频人物检测两方面内容。全景视频的视口预测具有重要的研究意义。在传统的视频传输过程中,视频服务器发送完整的视频数据到接收端。然而,观看者仅对视口内的图像可见,视口外的视频内容浪费了大量的传输带宽。因此,视口