【摘 要】
:
在实际应用中,许多数据对象都无法再简单的用单一特征向量描述。例如,描述客户购物行为的数据对象是由多条购物记录组成的,并且不同客户所购商品的数目也不尽相同。这种由非
论文部分内容阅读
在实际应用中,许多数据对象都无法再简单的用单一特征向量描述。例如,描述客户购物行为的数据对象是由多条购物记录组成的,并且不同客户所购商品的数目也不尽相同。这种由非固定数目的多个特征向量所描述的数据对象对传统的聚类算法提出了新的挑战,亟待发展相应的理论与知识以应对这种新形式对象的数据挖掘问题。本文引入块数据对象的概念,用于定义这种由多个特征向量描述的对象,并针对块数据集的聚类分析方法进行了以下两方面的研究,(1)基于词袋模型提出了一种块数据对象的新表示形式,解决了块数据集无法用传统聚类算法直接聚类的问题。在块数据对象向新表示形式的转换过程中,利用DBSCAN算法在块数据集每一维的虚拟对象数据集上进行聚类,得到属性列上虚拟对象的类分布情况,基于词袋模型给出了块数据对象的新表示形式。基于块数据对象的新表示形式,设计了一种面向块数据集的聚类分析算法(BWM-BDC算法),在真实数据上证实了BWM-BDC算法的有效性和可行性。(2)基于F_Leaders算法提出了一种改进BWM-BDC算法时间效率的方法。在改进方法中,首先利用F_Leaders聚类算法对块数据集每一维的虚拟对象进行基于密度的划分,并选取中心位置的对象作为类簇(划分)的代表对象,然后利用DBSCAN算法对每一维上的代表对象集合进行聚类分析,再将代表对象的类别标号拓展到其所在的类簇中,最终获得属性列上所有虚拟对象的聚类结果。改进方法通过减少DBSCAN算法的聚类对象这种方式优化算法的运行时间,在Musk数据上的实验结果证明改进算法在运行时间方面的优化效果显著。本文的研究成果为块数据集的聚类分析提供了一种新的思路,进一步拓展了聚类算法的应用范围,对块数据的深入研究有较积极的作用。
其他文献
随着信息技术的发展,部署在工业现场的分布式系统越来越多,同时企业对生产信息的共享的要求,使得基于COM/DCOM技术的传统OPC服务器难以适应当前及未来的要求。因此提出基于SO
膜蛋白在生物体中担负着多种多样的功能,大部分膜蛋白在药物设计、运转蛋白和免疫识别等方面起着关键的作用;膜蛋白同时也是重要的药物标靶。膜蛋白相互作用,尤其是螺旋膜蛋白
近年来,随着计算机、机器人和信息技术的快速发展与交叉融合,机器人被越来越多地应用到危险的环境中代替人工作。然而在目前的技术条件下,机器人很难在危险、复杂的工作环境下完
动态矩阵控制(DMC)算法是由卡特勒等于1979年提出的一种基于对象阶跃响应预测模型、滚动实施并结合反馈校正的优化控制算法,是预测控制算法之一。由于该算法比较简单,计算量
对等网络(Peer-to-Peer, P2P)流媒体利用互联网上的普通主机节点资源,实现数据共享和节点协作,在有限服务带宽下提供具有良好扩展性和性价比的视频服务。实际的P2P系统中,节
风机、水泵的主要动力源是三相异步电动机,要提高风机、水泵的运行效率,其核心问题就是高压电机的调速问题。串级调速是异步电动机最为经典的调速方法之一,长期以来人们对这一理论进行了大量的研究,但因为技术等方面的原因,一直没有得到广泛的应用。随着现代电力电子技术和计算机控制技术的发展,串级调速技术与之结合,取得了革命性的进步,使其在性能上满足了大规模工业应用的要求。现代串级调速系统中逆变器往往采用晶闸管组
生物识别技术是指依据人独有的身体特征或行为习惯来对个体进行唯一鉴定。做为一项新兴的科学,生物识别技术已经深入到社会生活的各个层面,给公众带来安全保证,成为公认的身
视觉里程计也称视觉定位,是指机器人行进过程中,利用机载相机采集到的图像信息,估计出机器人的位置变化。相比于传统定位方式,视觉定位能够克服数据丢失,车轮打滑造成的定位不准确等缺点,成为了机器人领域中的重要研究方向。但是目前视觉里程计仍然存在以下的问题:1点特征检测算法实时性和鲁棒性不好,影响运动估计。2在纹理缺失和动态等场景中表现不佳,忽略了结构线特征。3闭环检测效率低,难以应用到大规模场景中。本文
本文通过对反步法的学习和研究,设计了一种基于反步法的船舶航向自适应控制器,并在船舶模型参数出现摄动和海浪干扰的情况下进行了仿真研究。船舶航向控制器是船舶操纵运动控