高维数据的聚类算法及其距离度量的研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:tianchaoguoshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,高维数据在我们的日常生活随处可见,如何从高维数据中获取我们所需要的信息是当前研究的一个热点。对于高维数据的聚类问题,可以通过降维后使用传统的聚类算法,也可使用子空间聚类算法进行聚类,亦可使用新的距离度量方式来计算各样本点之间的距离从而来衡量相似性。本文的工作主要包括以下两个方面。(1)合适的距离度量函数对于聚类结果有重要的影响。针对大规模高维数据集,使用增量式聚类算法进行距离度量的选择分析。SpFCM算法是将大规模数据集分成小样本进行增量分批聚类,可在有限的计算机内存中获得较好的聚类结果。在传统的SpFCM算法的基础上,使用不同的距离度量函数来衡量样本之间的相似性,以得出不同的距离度量对SpFCM算法的影响。在不同的大规模高维数据集中,使用欧式距离、余弦距离、相关系数距离和扩展的杰卡德距离来计算距离。实验结果表明,后三个距离度量相对于欧式距离可以很大程度提高聚类效果,其中相关系数距离可以得到较好的结果,余弦距离次之,扩展的杰卡德距离效果比较一般。(2)针对含有高斯噪声的高维数据的聚类问题,提出一种使用新的距离度量方式的增量式聚类算法(Anti-noise fuzzy(c+p)-means clustering,ANFCM(c+p))。由于传统的模糊C均值聚类算法对初始化聚类中心比较敏感,所提出的聚类算法结合SpFCM的增量方法与FCPM中的初始化聚类中心的方法,即将先前数据块的聚类中心附近的几个样本点添加到下一个数据块以进行聚类,以避免FCM对噪声的敏感性。此外,提出的聚类算法使用一种新的改进后的距离度量的同时,并且使用改进的约束条件和目标函数。通过以上改进,可以有效的区分已知类和未知类在算法中的不同影响程度,同时加强已知类和未知类之间的影响程度。实验结果表明,该算法对高维且含有高斯噪声的数据集有很好的聚类效果,并且具有鲁棒性。
其他文献
<正> 我科自1993年—2000年间,用间接盖髓术治疗深龋560例,并观察至少两年,取得满意效果,现报告如下。临床资料深龋患者560例638颗牙。其中男性278例,女性282例。年龄最大的5
会议
为有效改变当前我国房地产价格种类繁多但缺乏权威性基准价格的现状,在科学借鉴国内外先进实践经验的基础上,将"基准房价"概念从"片区价"升华至"一房一价"并明确界定其基本内
"翻转课堂"充分发挥了教师的主导作用和学生的主体作用,是目前教育教学的研究热点。高职教育对"翻转课堂"的教学模式尚处于观望状态,还没有具体成熟的应用案例。笔者从微课视
国外个人住房制度的基本要素包括:贷款期限及贷款利率,贷款额度与个人收入、抵押物价值的比例,政府在个人住房贷款市场中的作用,贷款违约情况下的处置措施,按揭贷款的流动性
癌症是中国公民致死率最高的疾病之一,预防、早期诊断和治疗是癌症防控的关键。癌症筛查通过可视化检查、影像学成像或癌症相关生物标志物检测等方式,在尚无癌症症状的人群中
<正>一直以来,滑雪镜都是眼镜行业里不起眼的"小众"产品,因季节性强、受众少,上游的眼镜企业不愿生产,下游的眼镜零售店不愿售卖,所以国内知名的滑雪镜品牌少之又少。可是近
目的 通过研究支气管哮喘患者血清和周围血单个核细胞(PBMC)中IL-8、IL-10、IFN-γ的表达,以及设定治疗后观察治疗前后的临床和细胞因子的变化,探讨支气管哮喘的发病机理,寻求
细胞内重要的转录因子E2F1是E2F家族中第一个被克隆出来的蛋白,对细胞的增殖、分化和凋亡都发挥着关键性的作用。E2F1参与了细胞周期从G1期到S期的转换:在细胞周期G1期前,Rb与
<正> 美育与德育是促进人全面发展的两个重要方面,它们有着内在的联系,但长期以来,人们只强调德育的重要,或认为美育可有可无,或认为美育包含在德育里面,以德育代美育,或把美
随着“数字城市”的快速发展和城市建设规划水平的不断提高,为了建立城市三维建筑物模型,急切需要及时、准确地提取出三维建筑物,而传统的摄影测量方法已经很难满足这一需要。近