【摘 要】
:
2014年,密度峰值聚类算法(DPC)在Science杂志上发表。DPC是一种基于密度的聚类算法,相比其它聚类算法,该算法能够识别类球状的数据集,并且检测存在一定密度差异的集群。然而,DPC算法仍然存在一些问题:(1)聚合操作存在不足,分配过程不合理,尤其难以聚合密度差异较大且形状不规则的数据集;(2)决策图中聚类中心点难以选择,难以识别中心点;(3)非显著的异常点难以识别。2018年,郝德浩等人
论文部分内容阅读
2014年,密度峰值聚类算法(DPC)在Science杂志上发表。DPC是一种基于密度的聚类算法,相比其它聚类算法,该算法能够识别类球状的数据集,并且检测存在一定密度差异的集群。然而,DPC算法仍然存在一些问题:(1)聚合操作存在不足,分配过程不合理,尤其难以聚合密度差异较大且形状不规则的数据集;(2)决策图中聚类中心点难以选择,难以识别中心点;(3)非显著的异常点难以识别。2018年,郝德浩等人结合引力思想,提出基于引力的密度峰值聚类改进算法(GDPC),解决了DPC算法中决策图聚类中心不明显和异常点识别困难的问题。GDPC算法运用引力理论对DPC算法进行改进,在准确识别聚类中心和异常点方面优势明显。然而,和DPC算法一样,GDPC在聚合过程中仍存在同样问题:分配过程不合理,聚合效果不好,尤其难以聚合密度差异较大且形状不规则的数据集。为有效解决DPC算法和GDPC算法中分配过程的缺陷,本文在原始DPC算法和GDPC算法的优势基础上,分别提出两种改进算法,具体为:改进一、一种基于k近邻的密度峰值聚类算法(DPC-KNN)。算法结合k近邻的思想,对DPC算法的距离计算和分配过程进行改进,提出了DPC-KNN算法,该算法的分配过程更为合理。所以,DPC-KNN在处理一些不规则形状的数据集(例如:Spiral数据集)时比原始的DPC算法更有效;改进二、一种基于逻辑分布和引力的密度峰值聚类算法(DPC-LG)。算法采用logistic分布的概率密度函数改进GDPC算法中的局部密度参数,优化聚合效果。该算法能够合理调整局部密度的顺序,从而有效识别不同密度和不规则形状的数据集,聚类结果表现良好。然而,DPC-LG算法仍存在聚类中心点难以手动选择,极易造成多选或漏选现象,需要研究一种自动确定聚类中心的方法。改进三、一种自动确定聚类中心的基于逻辑分布和引力的密度峰值聚类算法(ADPC-LG)。算法结合正态分布等统计学知识,对聚类中心设定筛选条件,实现了决策图中聚类中心点的自动选择。根据UCI数据集测试结果看,ADPC-LG能够较好处理形状良好的数据集,也能够处理一些形状较为复杂的数据集,能够较好地实现聚类中心点的自动选择,具有更高的准确率。最后,为提高客户细分(聚类)的精准度,降低客户管理成本,本文选用“Global Superstore”消费数据样本,结合RFM模型的基本原理,选取相关属性变量,应用三种改进的DPC算法进行聚类处理。聚类结果表明:DPC-KNN算法聚类效果最佳,更适用于此类数据集。结合聚类结果,可以为企业制定营销策略提供帮助。
其他文献
目的通过比较由于缺血性心肌病所导致的慢性心衰患者和由扩张型心肌病导致的慢性心衰患者在使用沙库巴曲缬沙坦治疗前和治疗6个月之后,两组患者心脏收缩功能指标、心肌重构指标、心衰疗效指标所产生的变化以及实际的临床疗效改变和用药期间发生不良反应和不良事件的情况,来比较沙库巴曲缬沙坦在临床中对于两类不同病因心衰患者的实际疗效和服药的安全性。方法本研究采用前瞻性研究。选取2019年3月至2020年9月期间因慢性
随着社会的发展,动物在人们生活中的地位越来越重要,处于高压状态下的人们将动物视为其精神寄托来缓解压力,游览动物园也成为人们重要的日常活动之一。饲养动物数目的增多致使饲养动物损害案件也不断增多。我国关于饲养动物致人损害责任的研究只体现在《中华人民共和国民法通则》(以下简称《民法通则》)和《中华人民共和国侵权责任法》(以下简称侵权责任法)中,这两部法律的出台丰富了我国关于动物侵权方面的立法,对实践中出
自2017年财政部对企业会计准则进行了大规模的修订及增补以来,为了顺应时代的要求及促进国民经济的发展,鼓励制度创新,国家税务总局也紧随其后,与时俱进,针对加快固定资产折旧速度问题在2019年再度修订了与其相关的优惠制度。而每一次规则的修订与新增毫无疑问都将引起学者及从业者们对于固定资产业务处理在税法与会计准则差异方面的关注及研究。固定资产是任意主体维持正常运转不可或缺的因素,且固定资产的管理与企业
研究目的研究蟾毒灵对体外培养的人肝癌HepG2细胞的细胞增殖、凋亡及细胞周期的影响,研究蟾毒灵对人肝癌HepG2细胞放射增敏作用,探讨蟾毒灵应用与肝细胞癌放射增敏的可行性,为肝细胞癌放射治疗提供理论基础及新的治疗思路。研究方法1.以人肝癌HepG2细胞为实验对象,MTT法测定蟾毒灵处于不同浓度下时对人肝癌HepG2细胞的抑制增殖的作用。2.克隆形成实验分析蟾毒灵与放疗联合效应,获得细胞存活曲线及平
自上世纪80年代以来,表外业务已成为西方商业银行的一个亮点,甚至取代了存贷款业务成为新的核心业务。2007年,中国开始全面开放银行市场。许多外资银行都走在了我国国有商业银行前面。银行业的竞争正变得越来越激烈。随着中国利率和汇率政策的持续自由化,以及直接融资市场的繁荣,银行的利润率正变得越来越小。如果银行要在竞争中生存和发展,扩大业务范围和大力发展表外业务将是不二的选择。近年来,我国商业银行的表外业
目的:探讨piR-6245、piR-14587与piR-1994是否可用于胃癌诊断标志物及作为潜在治疗靶点的价值。方法:1.2018年7月至2020年12月,在内蒙古医科大学附属人民医院招募58名参与者,其中胃癌确诊患者38名,健康体检者20名。采集所有参与者空腹外周血,制备血清,用反转录定量聚合酶链式反应(Reverse transcription quantitative PCR,RT-q P
随着网络信息技术的发展,点对点(简称P2P)网络借贷已经成为我国互联网金融市场的重要组成部分。但是近年来P2P平台频频爆出跑路、诈骗、提现困难等诸多风险问题,对平台和投资者的利益造成严重危害,同时也扰乱了网络借贷行业的秩序。尽管监管部门出台了一系列整治措施,但P2P网络借贷平台存在的风险问题依然层出不穷。如何能有效识别P2P网络借贷平台运营风险成为市场和学者研究的热点,这一问题的解决对推动我国互联
随着我国经济的发展,各行各业都发生了很大变化,尤其是汽车产业。因此传统财务分析方法对于行业的研究已经不能满足需要,需要采用更加全面的研究方法进行分析。国内外学者对公司进行财务分析以评价其经营状况的方法始于19世纪初,其中大多数理论和案例研究集中在对企业财务报表的具体数据进行分析,即使是出现了一些分析框架,也没有给予合适的研究方法,对公司的财务分析缺乏综合性、全面性和具体性的评价。考虑到财务分析在当
执行是民事诉讼程序的最后一环,生效的裁判是否真正得到执行不仅关系到法院的司法公信力,还切实地影响着当事人的实体权利。但是,很长时间以来,“执行难”这一问题一直困扰着胜诉当事人和各级法院。为了保障生效裁判文书真正被执行到位,最高人民法院于2013年出台了相关规定,开始确立了失信被执行人名单制度,取得了一定的效果,此后又于2017年对该制度进行了修订,完善了其中的部分内容。失信被执行人名单制度有着深厚
东北亚作为一个地理概念,包括日本、韩国、朝鲜、蒙古、中国和俄罗斯,各国之间的贸易有着悠久的历史,是当今世界经济发展最为活跃的地区之一,但是由于朝鲜和蒙古经济相对落后,农产品贸易量较小,且数据难以获得,因此,本文的东北亚主要国家是指日本、韩国与俄罗斯。中国与东北亚主要国家地理位置邻近,有着相似的饮食习惯与消费观念,彼此之间的农产品贸易广泛而深入,在全球农产品贸易市场上,各国都是主要的农产品贸易大国。