【摘 要】
:
聚类是当数据结构未知时,对数据进行分类从而划分数据结构的一种手段,通过聚类则可以从大量的信息中筛选出有用的结构信息。此外,通过聚类得到的结果还可以帮助我们研究同一
论文部分内容阅读
聚类是当数据结构未知时,对数据进行分类从而划分数据结构的一种手段,通过聚类则可以从大量的信息中筛选出有用的结构信息。此外,通过聚类得到的结果还可以帮助我们研究同一类个体间的相似性以及不同类之间的一些属性。谱聚类是近些年提出的一种聚类方法,因为其操作简单且在处理非线性聚类问题上效果较好而应用广泛。本文主要研究谱聚类算法及其在高维数据分析中的推广和应用。本文首先介绍了谱聚类算法。通过对karate club数据进行实例分析,阐述了谱聚类算法的工作原理。在数据模拟中,我们又将谱聚类算法与k-means算法进行了比较,以此说明谱聚类算法的优缺点。同时,本文指出相似函数参数的设置在谱聚类算法中起到了非常重要的作用,不同的参数可以导致最后的聚类结果完全不相同。另外,本文对谱聚类算法进行了推广,将谱聚类算法推广到高维情形,给出了一种数据维数较高时的谱聚类算法。该算法的核心思想是先对高维数据通过随机投影进行降维得到维数较低的数据,再对降维以后的数据使用谱聚类算法。因为使用的降维技术是随机投影,为了克服随机投影降维经常出现的降维结果不稳定的缺点,本文在聚类算法上进行了改进:通过多次对原始数据使用随机投影得到降维数据后计算相似矩阵,再对得到的相似矩阵的每一个元素取平均,最后对取平均后的相似矩阵进行谱聚类算法中的操作。我们通过大量的蒙特卡洛模拟并与k-means和子空间聚类进行对比验证了所提方法的有效性。
其他文献
在中国古代法律形式的研究方面,学术界更关注对律的研究,对于其他法律形式的研究则较为欠缺。如在令的研究方面,秦汉时期由于有出土的法律文献作支撑;唐宋时代因为有较丰富的典籍
近年来一些研究显示microRNAs(miRNAs)在糖尿病肾病(diabeticnephropathy,DN)发病中起重要作用,这种小RNA分子能以不完全互补的方式与其靶mRNA的3’非编码区(untranslatedregion
波兰裔英籍作家约瑟夫·康拉德所生活的年代正是文学风格从现实主义转向各式现代主义潮流的时期。始于绘画领域的印象主义开始对文学创作产生影响。康拉德被贴上了印象主义小
集聚与出口的关系一直是区域经济和国际贸易领域的热点课题。自中国加入世贸组织以来,中国出口总额在国民经济中的比重不断上升。2011年,中国工业制成品出口额占全球制成品贸易
<正>廉玉麟教授是天津中医药大学第一附属医院针灸科主任医师,从事针灸教学及临床研究30多年。廉教授学识渊博,善于以辨病与辨证相结合的方法治疗各种疑难杂症,临床疗效显著
<正>"关格"一词源于《内经》,其本义包括脉象、病机和预后。自《内经》以后,历代医家对关格的含义虽有阐述,但说法不一:有言病者、有言证者、有言脉者、有言病机者,致使"关格
高可靠长寿命产品广泛存在于航空航天、电子工业、军事等可靠性和安全性要求较高的领域,由于其成本高、批量小以及失效机理复杂等特点,如何评估这类产品的可靠性和剩余寿命成
城乡分治的二元制度以城乡二元户籍制度、财政属地化管理制度、城乡分治的规划管理制度为核心制度,继而由核心制度演绎出来系列城乡二元制度体系,其中以地区划分的城乡二元核
名师工作室是当前为解决基层中小学师资队伍建设、名师资源辐射、专项课题研究等问题而专门组织起来的有固定参加人员、有明确活动内容的组织机构。本文试从专业共同体的角度
随着工业生产和工艺的进步,人们对产品的质量要求越来越高,而传统的人工检测方法已成为工业检测行业发展的一个关键性制约因素。近年来迅速发展的机器视觉技术越来越广泛地用于