序列模式挖掘中类Apriori算法的改进研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:qq68813172
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘中,类Apriori算法通常与Apriori性质相关联:序列模式中,若子序列非空,则为频繁模式。Apriori性质具有反单调性,利用这种性质可以剪裁搜索空间。然而,序列模式挖掘类Apriori算法在产生候选序列集过程中的拼接与剪枝操作运算非常繁琐,同时会产生大量的候选序列集,尤其当序列比较长时会触发组合爆炸效应,导致算法失效,因此对序列模式挖掘中类Apriori算法的改进研究是很有意义的。本论文从减少拼接、剪枝操作的数据比较次数和数据库的扫描次数等角度出发,对已有的主要算法进行进一步改进并提出新的策略,通过对关联规则Apriori算法及其若干改进算法的研究,将Apriori算法的优化策略移植到序列模式挖掘算法中。修改了序列模式挖掘算法的拼接与剪枝策略,使得拼接后产生的候选序列满足字典排序的特性,利用序列有序的特点减少拼接和剪枝阶段的比较次数,提高算法的效率。同时基于子序列的产生规则在执行拼接操作前删减频繁序列集,设计出新的高效算法;将关联规则和序列模式挖掘中的所有改进策略加以综合和利用,提出理论上可行的connect、delete和cut三种改进策略,并对改进算法的时间和空间效率进行详细的定量分析。利用JAVA语言实现改进算法源程序,利用IBM人工数据生成器生成实验数据,并应用IntelliJ IDEA12.0在同一环境中运行不同的改进策略,通过Echarts插件实现数据的可视化。实验结果表明,改进后的算法在效率上有了明显的提高。
其他文献
语义集成可以消除异构数据库中的数据冲突和异常,实现同一行业不同企业和机构之间的异构数据集成。异构数据的语义集成对于国家进行宏观调控、建立公共数据平台具有十分重要
目前,很多数据的传输和使用都是应用网络数据的形式进行传输,网络流量是承载网络数据的主要形式,因此,识别网络流量,进而分析提取网络数据以及实现流量检测和控制越来越重要
激光光束的传输与控制是高功率激光驱动器创新发展的核心关键技术。研究高功率激光非线性传输的空间特性及其控制措施对提高高功率激光驱动器的运行通量、保障系统运行安全等
基于视频流的卡通动画制作方法是新兴的一种计算机辅助卡通动画方法,也是当前计算机辅助卡通动画研究的热点问题之一。这种方法旨在运用计算机视觉和图像处理等技术,获取视频
近年来随着无线通信技术、传感器技术和嵌入式技术的飞速发展,无线传感器网络成为计算机科学技术的一个新的研究领域。数据采集网络是无线传感器网络一个重要的应用分支。在
近年来,我国对网络科技资源管理领域的投入逐步加大,取得了举世瞩目的成绩。为了进一步提高网络科技资源的利用率,降低网络科技资源管理的成本,我国提出了建设“国家科技基础条件
文本分类作为一项重要的数据挖掘技术,在国内广泛地应用于词义辨析、文本组织与管理、信息过滤、Web网页文档分类、数字图书馆、信息检索等众多领域,因此提高文本分类的精确度
本文尝试从流程管理和内部控制相结合的角度阐述如何通过加强流程管理来促进企业内部控制,来帮助企业恰当、有效、安全的配置资源,从而更好地达成企业的目标。全文共分为四个主
智能规划已经成为人工智能研究的热点,尤其是基于概率方法的不确定规划算法和对可创建删除对象规划算法的研究。概率方法定量的刻画了现实世界中的不确定性,更适合于求解现实
传输控制协议(TCP)被广泛应用于有线网络中。作为传输层协议,它提供端到端的可靠传输服务,被公认为是有线网络中一种很有效的传输层解决方案。拥塞控制是TCP协议研究的一个热