基于属性加权的PBMMKM聚类算法研究与应用

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:coudoudou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K-means聚类算法对于小规模数据其聚类结果具有高效性和准确性,但对于大规模的数据,聚类结果的准确率明显下降。K-means聚类算法中的聚类数须事先确定,对初始聚类中心点的选取具有很大的依赖性和随机性,并且对噪声点非常敏感。针对K-means算法这些缺陷,论文提出了一种基于属性加权的K-means改进算法。论文提出了一种主成分分析与线性判别分析相结合的属性加权主成分分析PWPCA算法。利用线性判别分析的线性映射与主成分分析对数据维数进行约简,通过计算各属性的贡献率来确定权值,利用最小二乘法将其拟合,对于特征权值接近为零的维数可将该维约简,以便达到属性加权特征选择的效果。在维数约简后的数据上进行K-means聚类,减少了聚类计算量,提高了聚类准确率。与其它算法进行聚类分析比较,实验结果分析表明了基于PWPCA的K-means算法能有效解决聚类对异常点敏感及海量数据聚类准确率较低的缺陷。论文提出了一种基于并行二分最大最小距离的K-means算法PBMMKM(Parallel Bisecting Max Min K-means)。算法根据并行二分执行迅速的思想将数据集划分为特定的类数,在每个类中运用最大最小距离的思想进行聚类,依据最近邻类的合并原则进行小类合并,用BWP有效评价指标来反映聚类结果。PBMMKM算法在进行聚类时不需要确定聚类数,有效解决了 K-meatns聚类算法中的聚类数必须事先给定以及对初始聚类中心点的选取具有随机性这些缺陷。与其它算法进行聚类分析比较,仿真实验结果表明了基于属性加权的PBMMKM算法具有较高的稳定性和准确性。在客户关系管理系统中采用了 PBMMKM算法,对处理好的数据集分别用K-means算法、MMKM算法和论文提出的PBMMKM聚类算法进行客户聚类分析比较,通过客户聚类细分结果表明了 PBMMKM算法使得聚类结果更加准确和细化,具有更接近实际应用的聚类分析结果。
其他文献
协商民主是为应对选举民主困境并遏制社会分裂,在西方学术界兴起的一种民主理论新思潮。它主张自由而平等的公民通过有序、理性的对话协商,审视他人的观点并转变自我偏好,形
背景:脑瘫(cerebral palsy,CP)是描述一组在发育中的胎儿或婴儿的大脑由于发生了非进行性障碍,发生运动和姿势的永久性障碍,引起的活动受限。CP的运动障碍往往伴随着感觉,知觉,认知,交流和行为及癫痫和继发性肌肉骨骼问题的干扰。随着产科和新生儿重症监护治疗技术的提高,新生儿的存活率明显提高,但伴有脑损伤的新生儿的比例也相应增加。CP严重影响了患儿的正常生长发育、社会交往、学习和生存的能力
自中泰两国政府共商共建赴泰汉语教师志愿者合作项目以来,开设汉语课程的学校如雨后春笋般涌现出来。而采取怎样的教学模式,成为学校设置汉语课程时首先要考虑的问题,笔者所
数据分析在当前社会中起着格外重要的作用,而数据采集系统又是数据分析的数据来源,其提供数据的精密性和可靠性关系到后续工作是否能顺利执行。现阶段,市面上已经存在大量的
近年来,伴随着众包概念的广泛传播,越来越多的众包平台开始支持软件开发任务的众包行为。一方面,传统软件工程的专业性、计划性、封闭性等缺点使其很难面对未来物联网超大规模的挑战,另一方面,互联网的普及带来了用户需求多样化、产品更新迭代快的特点,使很多企业都难以找到创新和成本之间的平衡。相比之下,将软件工程与众包结合起来的群体软件开发模式,能够借助网络平台跨越时间和空间的限制,鼓励大众参与到产品研发的过程
推荐系统是一种帮助网络用户解决信息过载问题的有效手段。传统的推荐算法往往都只专注于物品预测评分的准确性,而没有考虑物品在系统产生的推荐列表中的排列顺序,对用户来说预测评分的准确性并不能保证一个好的排序结果。为了解决推荐列表中物品的排序问题,研究者将排序学习方法融入到推荐算法之中得到排序推荐模型。本文针对如何利用机器学习的方法来提升推荐算法的排序效果这个问题进行了研究。介绍了推荐系统以及常见的推荐算
随着无线通信的快速发展,对网络的吞吐量和时延有着越来越高的要求,如何充分地利用有限的频谱资源,减少网络中的冲突,减小不必要的开销一直是一个亟待解决的问题。目前基于802.11协议的无线局域网接入技术已经得到了极大的应用,但由于用户需求的不断增长,性能还需要不断优化。现有的信道接入优化研究往往需要节点间信息的交互或者通过其他的途径获取优化所需的信息,导致开销较大,甚至可能造成网络性能的下降。特别是密
2014年国办印发46号文件首次提出:将体育设施作为实施载体,建设城市体育服务综合体。当前我国冰雪场馆传统运营模式与大众对于冰雪运动的多元化需求日渐脱轨,城市冰雪体育综合体作为城市体育服务综合体的分支部分,为2022冬奥背景下我国大型冰雪场馆的发展提供了转型方向。本文以我国初具规模的城市冰雪体育综合体和有条件发展为城市冰雪体育综合体的场馆设施、自然资源等为研究对象,通过运用文献资料法、实地调查法、
学位
互联网技术的创新发展催生了一批以互联网为基础的消费领域,电子商务为用户提供了方便快捷的消费体验,影响着社会经济生活的各个方面。随着用户数量的不断增多和服务类型的多样化,传统的电子商务业务流程发生变化,在区分用户优先级的电子商务系统中,系统在处理用户请求时会对不同优先级的用户产生不同的响应。在电子商务物流配送业务中,物流配送的时间效率是电子商务服务方面值得关注的问题。在对系统的业务流程进行研究时,建
复合推力高速直升机由于兼有直升机与固定翼飞机的优点,因而成为目前直升机技术领域的研究热点。论文针对一种旋翼/机翼复合两侧推进螺旋桨构型的高速直升机开展了操纵与控制技术研究工作,主要研究内容及成果如下:首先,根据该复合式直升机的构型特点,研究建立复合推力高速直升机非线性飞行动力学模型,建模过程中采用CFD技术研究了主要部件之间的气动干扰特性,并以干扰因子的形式在飞行动力模型中予以表达,提高了飞行动力