【摘 要】
:
序列模式挖掘是从大型时序数据库中发现事件之间存在的隐藏的、有趣的序列关系,挖掘出基于时间或者其它顺序的出现频率高的频繁序列模式。它弥补了关联规则挖掘不能反映事件在
论文部分内容阅读
序列模式挖掘是从大型时序数据库中发现事件之间存在的隐藏的、有趣的序列关系,挖掘出基于时间或者其它顺序的出现频率高的频繁序列模式。它弥补了关联规则挖掘不能反映事件在时间顺序上相关性的缺点。序列模式挖掘技术已在顾客购买行为分析、DNA序列模式分析等多个领域得到了广泛的应用。本文重点研究了在已挖掘的频繁序列模式的基础上,再利用划分聚类的K-均值算法对序列数据进行聚类研究。文中利用Huffman树的构造思想对K-均值算法随机选取初始中心点会导致聚类结果的不稳定性缺点提出了一种新的解决算法K-SPAM (K-means algorithm of sequence pattern mining based on the HuffmanMethod)。K-SPAM算法实现了对包含相似模式的序列数据进行聚类,通过对聚类初始中心点的选取采用Huffman思想,减少了K-均值算法的迭代次数,提高了聚类的稳定性。并通过实验对K-SPAM和K-均值算法的聚类结果进行比较,进一步证实了K-SPAM算法的优点。
其他文献
骨关节病是一种症状为关节剧烈疼痛的综合征,总是发生在承受大重量的关节中。通常由非正常的关节承重引起。骨关节病除了引起种种的生活不便之外,它的治疗费用是非常昂贵的,
在科技日益进步的今天,机器人也逐渐进入大众的视野。在工业领域机器人已经逐渐代替人类完成一些单调或危险的工作,在生活领域机器人也逐渐成为人类的助手提供一些服务或娱乐功
集群系统中文件访问效率对整个集群系统的性能有着至关重要的影响。缓存的效率要远远高于磁盘,如果对文件的操作均从缓存进行读取将会大大的提高文件访问效率。而MOSIX集群系
自然现象的模拟是近十几年来计算机图形学的一个重要研究领域,自然景物的渲染是图形学技术研究中的一个重点和难点之一,如何构造结构复杂、形态变化的物体是计算机图形学的一
计算机技术、多媒体技术以及Internet技术的长足发展导致了大量图像的出现,如何有效地、快速地从大规模图像数据库中检索出所需的图像是目前一个相当重要又富有挑战性的研究
目前因特网使用的核心协议IPv4是20世纪70年代末设计的。无论从网络规模还是从传输速度上看,IPv4协议的不足渐渐显现出来。其中最主要的问题在于32bit的IP地址不够用。为此,I
随着医学成像技术的发展,医学影像已经成为一项极其重要的诊疗技术。然而,随着数字化医疗设备如CT、MR、DSA、DR在临床医学诊疗中的大量应用,以及计算机技术在医疗中的迅速普
近年来,随着信息技术在教育领域的广泛应用,各种各样的智能教辅平台迅速发展并吸引了大量的用户,逐渐成为了学习者进行知识构建和协作学习的主流学习环境。与传统教育相比,智
随着多队列万兆网卡的普及,内核网络包I/O子系统的低效性越发突显。学术界和工业界为了解决这一问题而提出的高性能用户空间包I/O框架逐渐成为构建高性能网络系统的基础。然
随着计算机互联网技术的飞速发展,计算机网络在给人们带来极大便利的同时,各种网络入侵与攻击也接踵而至,入侵检测系统就充当了抵御网络入侵的武器。一方面,随着计算机网络高