基于高斯混合模型和相关子空间的投影聚类分析及应用

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:yanweiwch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术、社交机器人、协作远程呈现等新兴技术的快速发展,获取得到的数据规模越来越大,数据包含的信息也越来越丰富且以高维数据的形式涌现出来。聚类分析作为数据挖掘中的一项重要研究内容之一,在信息处理中是不可缺少的。传统的聚类分析方法受“维灾”和数据本身稀疏性的影响较大,已无法适应于海量数据分析。本文采用高斯混合模型定义下的相关子空间,对基于相关子空间的投影聚类分析算法以及应用进行了深入学习和探究。其主要研究成果如下:(1)给出了一种基于高斯混合模型的相关子空间投影聚类分析算法。该算法采用K近邻得到每个数据对象的局部数据集LDS,并引入稀疏度因子生成稀疏度矩阵,而后进行高斯拟合并结合稀疏度矩阵,识别出相应的相关子空间和不相关子空间;根据相似性度量,剔除稀疏数据和无关属性维,进行K-means算法进行聚类;选UCI数据集进行实验,验证了该算法的有效性。(2)给出了一种基于数据段划分最大距离积和聚类指数的聚类算法。该算法利用数据段划分使选取的中心点尽可能远,减少迭代次数和陷入局部最优的概率;对得到的中心点求解中心点间的距离之积,选取距离之积最大的作为初始聚类中心,并参照设定的聚类指标,确定合适的k值;选UCI数据集进行实验,验证了该算法的有效性。(3)基于上述研究成果,以Eclipse作为开发平台,设计与实现了基于高斯混合模型的相关子空间投影聚类分析原型系统,并对其关键技术进行了详细说明,其运行结果分析表明,该原型系统为天体光谱数据的知识发现,提供了一种有效的途径。
其他文献
焚烧秸秆作为传统农业生产环节的一部分在中国很久以前就存在了,之前却并未引起人们的重视。然而近年来,伴随着中国经济社会的发展,农村的生产方式和生活能源结构的变化,人民群众的环保意识大幅提升等多种因素共同作用下,秸秆的处理已经不能再像之前简单的一烧了之。中国关于禁止秸秆焚烧的新闻报道和相关的法律法规出现的频次也越来越多,秸秆焚烧问题的关注度在逐步上升。政府加强了对于农村焚烧秸秆问题的管理措施,却引发了
我国具有幅员辽阔、人口众多、国民素质参差不齐、突发事件种类多、发生频次多等现实特点,导致我国应急管理工作非常重、压力非常大。尤其是最近几年,各类公共安全事件、卫生事件、灾害事故、地震、台风等自然灾害在我国频频发生。由于社会普通民众对事故灾害风险认知不足、应对灾害风险能力欠缺,以此带来了一定程度上的本领恐慌、社会民众生命财产损失。推动社会民众及整个社会风险应对能力提升的一个关键举措,就是提高全社会的
中国个人手机银行市场规模早在2017年就已经到达15.02亿户,并保持稳定增长的趋势,伴随着互联网的不断发展、智能手机的普遍使用以及客户服务体验要求的不断提高,手机银行已成为众多银行竞争的焦点。C银行作为我国四大银行之一,如果想在众多商业银行手机银行的竞争中不断取胜,就需要进一步改进其手机银行的营销策略。本文以专业的角度通过宏观环境分析、竞争环境分析及C银行手机银行面临的机会与威胁详尽地分析了其外
伴随着信息网络技术的不断增强,人们开始步入大数据时代。个人信息在大数据时代的背景下已经渗透到各行各业,成为不可或缺的生产要素和战略资源,个人信息的商业利用也已成为普遍现象。但人们在享受由此带来的便捷高效的生活服务时,各种问题与风险也不断凸显。尤其是近年来,个人信息在商业利用中的不当收集、利用与披露等现象十分严重,给人们的隐私安全、财产安全甚至生命安全造成了重大的隐患。然而,当前我国的个人信息保护立
随着蔬菜地重金属污染的日益严重,蔬菜的安全生产受到越来越多的关注与重视,蔬菜地重金属污染的修复也成为了不少专家学者研究的热点。相关研究结果表明,钝化材料的施用和低积累品种的种植都是蔬菜地重金属修复的有效途径,但钝化材料的施用一定程度的增加了农业生产成本,如果施用的钝化材料种类没有与当地种植的蔬菜种类进行正确的试验筛选,可能会导致土壤中重金属降低效果不明显,不能将蔬菜中重金属含量降低至国家标准以下等
国际海事组织将于2015年起对成员国履行国际海事公约的情况进行强制审核。我国作为国际海事组织A类理事国,接受国际海事组织强制审核势在必行。但是我国海事履约工作起步较晚
在本文中,为了检测人参样品中唑菌胺酯的含量,建立了分子印迹分散固相萃取(MIDSPE)结合高效液相色谱(HPLC)法。此方法中用分子印迹聚合物(MIPs)作为分散固相萃取过程的吸附剂。首先通过沉淀聚合反应制备分子印迹聚合物,聚合过程分别使用唑菌胺酯作为模板分子,甲基丙烯酸(MAA)作为功能性单体,乙二醇二甲基丙烯酸酯(EGDMA)和偶氮二异丁腈(AIBN)作为交联剂和引发剂。混合溶剂丁酮(MEK)
随着互联网和云计算的发展,资源调度的核心由传统路由器转变为数据中心,数据中心已成为数据支撑平台,承载用户请求并对外提供服务。传统运营商的网络测量方法面向的场景是尽力而为的服务,而不关心具体应用在网络上的服务质量,而数据中心之间的网络资源调度是为应用提供服务的,因此数据中心之间需要更精细化的网络测量方法,从而为细粒度的资源调度提供数据支撑和决策依据,数据中心之间的网络测量对当今互联网资源的调度具有重
Boer-Mulders函数是一个描述非极化强子中横向极化夸克分布的横动量依赖(TMD)部分子分布函数,其时间反演为奇(T-odd),对Boer-Mulders函数的研究有助于了解核子内部的横向自旋
玉米是我国最重要的粮食作物和工业原料之一,我国对玉米的需求量也在与日俱增。因此提高玉米产量是当务之急,但玉米虫害问题一直是制约着玉米产量提高的重要因素,每年都会对我国玉米产量造成巨大影响,尤其以玉米螟所造成的损失特别严重。利用化学药剂防治虫害存在着污染环境,破坏生态系统等方面的缺陷,无法做到从根本上解决虫害问题。因此利用转基因技术创制新的抗虫玉米自交系和培育新品种就显得十分重要。本实验利用Cry1