【摘 要】
:
随着当今计算机技术的飞速发展,数据的爆炸性增长使得从中发现有价值的信息变得越来越困难,原本在低维数据集上能够取得良好聚类效果的方法,由于受到“维灾”影响,无法在高维
论文部分内容阅读
随着当今计算机技术的飞速发展,数据的爆炸性增长使得从中发现有价值的信息变得越来越困难,原本在低维数据集上能够取得良好聚类效果的方法,由于受到“维灾”影响,无法在高维数据集上取得同样理想的结果,因此寻找更全面的聚类方法迫在眉睫。本文主要研究适用于高维数据集的聚类算法,首先介绍了数据挖掘中高维数据聚类的背景和意义,以及聚类算法的国内外发展现状;其次介绍了聚类的相关知识;在阅读大量文献的基础上,提出了现有算法的一些改进。主要工作如下:(1)总结了现有聚类算法的优缺点,尤其是子空间CLIQUE算法和密度峰值聚类算法DPC。CLIQUE算法中的等宽划分网格可能会丢掉部分聚类点,破坏密集区域的完整性;并且人为输入密度阈值具有随机性,很难确定合适阈值。DPC算法只能处理中小型数据集,而且区分不出异常点和聚类边界点。(2)提出自适应高维子空间聚类算法REG-CLIQUE,引入二叉树结合相对熵进行自适应网格划分,删除冗余维,提高聚类精度;提出密度阈值的计算公式,递归求得合适值,大大降低算法先验性。实验表明,REG-CLIQUE算法能够实现自适应聚类,且聚类时间及准确率都优于GP-CLIQUE算法和CLIQUE算法。(3)提出密度峰值聚类改进算法SREDPC,对高维大数据集进行抽样处理,使用残差平方提供一个比DPC算法更好的决策图来确定聚类中心;通过晕点识别区分出异常点和属于聚类簇的边界点。实验表明,改进算法能够应用于高维大数据集,在时间复杂度和聚类结果上也都优于原始DPC算法。
其他文献
局域表面等离子体共振(LSPR)因为其独特的性质,如表面局域和近场增强,可广泛用于生化传感、数据存储、薄膜太阳能电池、以及纳米尺度的光学器件等领域。本文根据LSPR的基本特
【目的】外伤导致的周围神经损伤,在接受手术重建后功能恢复效果常不理想,寻找有效的辅助治疗方法十分必要。低强度脉冲超声被证明能通过促进营养因子表达而促进坐骨神经损伤的再生及功能恢复。4-氨基吡啶作为一种钾离子通道阻滞剂,被证明能促进坐骨神经损伤再生及功能恢复。本研究将低强度脉冲超声联合4-氨基吡啶应用于坐骨神经损伤大鼠模型,来评估二者对坐骨神经损伤再生的联合治疗效用,并初步探讨其作用机制;【方法】1
人脸表情合成作为图像处理领域的重要技术,广泛应用于电影、虚拟现实、游戏以及刑侦等各大领域。传统的人脸表情合成算法系统复杂,需要表情获取和跟踪设备以及大量的计算力进
表生地质作用是地壳中最复杂和最活跃的地质作用过程。风化作用是地球上最常见的表生地质作用之一。从矿产勘查学的角度来看,由风化作用导致矿体的分解、破碎、运移造成元素
本文采用密度泛函方法对不同立体手性的邻碘酰苯胺(N-(2-IOodo-4,6-dnmethylpeenyl)-N,2-(1iimethyL-(2E)-buaenaiide)在AIBN/HSnBu3催化下的脱碘反应、阻旋异构化反应和分子内自由
党的十八大以来,以习近平同志为核心的党中央肩负着全面建成小康社会、建成富强民主文明和谐美丽的社会主义现代化强国、实现中华民族伟大复兴的历史重任。“创新是引领发展
随着中国企业海外并购数量及金额的大幅提升,私募股权基金愈发积极地参与其中。跨境并购,尤其是行业巨头的合并往往能产生显著的协同效应,却常常面临着诸多制约。而与此同时,
索支承体系桥梁是现阶段大跨度桥梁中的主要结构形式,而拉索则是索支承体系桥梁中至关重要的受力和传力构件。因此,准确地识别拉索索力等参数在桥梁的施工控制和安全运营中具有重要意义。本文基于索力测试中最常用的频率法理论,分析了拉索索力、抗弯刚度等参数和自振频率之间的复杂规律,提出了使用 LNN(Legendre Neural Network,勒让德神经网络)和 XGBoost(eXtreme Gradie
在服役环境中腐蚀因素的不断侵袭与运营荷载不断增长的双重压力下,钢筋混凝土桥梁的耐久性问题成为工程领域广泛关注的问题之一。对钢筋混凝土桥梁进行耐久性评定与可靠性分析,不仅能够揭示结构服役过程中面临的潜在风险,便于科学合理的安排维修养护资源,而且研究成果可以用于指导结构设计。服役环境中多种腐蚀因素(如冻融、碳化、氯离子侵蚀等)的作用使得结构材料性能发生劣化,最终导致抗力衰退,耐久性寿命降低,给桥梁的安
函数空间上的算子理论是函数论的重要研究领域之一,本文利用分析和构造检验函数的方法,研究了从Zygmund型空间到Bloch-Orlicz空间上的Stevic-Sharma算子和Volterra型算子的有