非独立同分布下DBSCAN算法的研究

来源 :齐鲁工业大学 | 被引量 : 1次 | 上传用户:flurryzhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类方法是数据挖掘的重要组成部分,其目的是把相似的数据对象聚在一起,把不相似的数据对象尽可能地分离,是一个极富挑战性的研究领域。DBSCAN是一种性能优越的基于密度的聚类算法,该算法将具有足够密度的区域划分为数据簇,数据簇为密度相连的数据对象的最大集合,算法的显著优点是聚类速度快,能够有效处理噪声点,且能发现任意形状的空间聚类。但是由于传统的DBSCAN算法存在假设数据对象和属性之间是独立同分布的,传统的距离公式难以准确度量类别型数据对象和属性之间的相似度,且参数敏感不易确定等问题。为了解决上述问题,本文研究了非独立同分布下的DBSCAN算法。采用非独立同分布的思想处理类别型数据的无监督聚类问题,即利用非独立同分布的耦合相似度公式计算数据对象和属性之间的相似度,将得到的耦合相似度以矩阵的形式输出。利用邻域区间值(邻域区间下限值Eps1和邻域区间上限值Eps2)和阈值来划分高密度数据集合,从而可以更快地得到更高质量的聚类结果。针对普通的类别型数据,提出了Non-IID DBSCAN算法(DBSCAN under Non-Independent and Identical Distribution),升序排列耦合相似度最大的数据对象Om与其他数据对象的耦合相似度得到数组Rm,利用绘制数组Rm的可视化方法来选择邻域区间下限值Eps1,观察发现曲线先缓慢上升后趋于平稳,最后在某处突然变陡,则将曲线突然变陡处对应的耦合相似度的值设置为邻域区间下限值Eps1,同时找到邻域区间下限值Eps1的相似度较大侧的所有K-近邻值(K取Minpts的值),并将其最大值设置为邻域区间上限值Eps2。利用密度公式判断数据的稀疏稠密程度,即根据密度值的大小设置参数阈值Minpts。通常情况下,若密度值较大时,阈值Minpts取值为4,若密度值较小时,阈值Minpts取值为2。针对含有布尔型数据的类别型数据,提出了NIB-DBSCAN算法(DBSCAN under Non-Independent and Identical Distribution for Boolean data),通过利用散点图拟合数据对象和属性耦合相似度的分布情况,找到数据簇与数据簇的分界点,将其对应的耦合相似度的值设置为邻域区间下限值Eps1。对于数据簇数量较少的数据集,利用加权平均数选择参数阈值Minpts;对于数据簇数量较大的数据集,利用特殊值方法选择参数阈值Minpts。最后通过UCI数据集的实验结果表明,非独立同分布下的DBSCAN可以获得更高精度的聚类结果,且提高了算法的适用性。
其他文献
系统性红斑狼疮(SLE)是一种复杂的自身免疫性疾病,可累及皮肤、肾脏、关节等多种脏器,免疫调节失衡是SLE发病的关键因素。本课题通过分析SLE患者和健康人外周血Tfh细胞和CD8~
随着经济的不断发展,人们生活水平的不断提高,汽车作为日常生活和生产中的重要交通工具得到了广泛的普及,我国的汽车保有量不断提升。为了应对和缓解因汽车数量激增而带来的
目前氧化物薄膜晶体管具有高迁移率、高透光率、高电流开关比、低工作电压等优点而受到广泛关注。最常使用的非晶铟镓锌氧(a-IGZO)具有较好的光透过率和电导率,但a-IGZO中的Ga2
目的:兴奋性毒性是导致神经退行性疾病神经元细胞大量丢失的主要原因。海人藻酸(Kianic acid,KA),兴奋性神经递质谷氨酸(glutamate)类似物,其诱导的神经元兴奋性毒性损伤被认
有轨电车以其节能环保、安全快捷等优势,在国内得到大力发展和广泛应用。在有轨电车高牵引功率、高制动功率并频繁大幅度波动的工况及高温等极端环境下,车用超级电容器内部将产生大量的热量使其温度迅速升高,影响性能与寿命,给热管理带来巨大挑战。为了提高间歇式供电有轨电车的使用性能、降低其储能成本,车载储能系统必须工作在适宜的温度和较小的温差范围内。本文依托国家重点研发计划项目(任务)(No.2017YFB12
大多数分布式发电系统通过并网逆变器连接到电网,为减少高频谐波注入电网,通常在逆变器和电网之间接入低通滤波器如LLCL滤波器来获得高质量的电网电流。针对传统滤波器参数设计方法存在计算复杂、过程繁琐等问题,本文将高维多目标进化算法应用于光伏并网逆变器LLCL滤波器参数设计,对高维多目标进化算法的相关理论进行了深入研究和实验论证。在针对RVEA(Reference Vector Guided Evolu
赤拟谷盗Tribolium castaneum(Herbst),是一种重要的次生性储粮害虫。目前赤拟谷盗的主要防治方法是磷化氢熏蒸。由于长期过度、单一地使用PH3防治赤拟谷盗,其己对磷化氢产生抗性。将昆虫信息素与诱捕设备相结合的生物防治技术已成为国际上储粮科技工作者研究的重点。本文研究了赤拟谷盗磷化氢抗性种群和敏感种群在信息素分泌和剂量反应上的差异。以3个不同磷化氢抗性种群赤拟谷盗为研究对象,通过
类风湿性关节炎(Rheumatoid arthritis,RA)是一种常见的自身免疫性疾病,病理特征包括滑膜组织的过度增生,关节局部的炎症反应,关节骨和软骨组织的破坏。RA关节破坏的机制尚不
近年来我国科技发展迅速,高清视频、虚拟现实以及物联网等各种高新网络应用和技术层出不穷,极大的改善了网民的生活体验,基本上实现了万物互联的智能时代。思科白皮书预测在
自旋电子学是物理学中一个新兴的研究领域,是磁学与微电子学相结合的一门交叉学科,用于研究电子的自旋而非电荷在固体物理学中所起的作用,通过操控电子自旋可以发展具有广大