无重叠条件下的间隙约束序列模式挖掘

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:hogutan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘(SequencePattern Mining)是数据挖掘的重要组成部分,主要任务是发现序列数据库中频繁出现的子序列,并且在诸多领域具有广泛的应用。传统的序列模式挖掘具有盲目性,导致挖掘结果冗余并且效率低下,因此衍生出多种类型的条件和约束有针对性地进行挖掘。间隙约束的序列模式挖掘问题具有广泛的应用价值,是目前的研究热点。根据出现的不同约束要求,间隙约束的序列模式挖掘可以分为无特殊条件、一次性条件和无重叠条件。无重叠条件是指一个模式在序列中的任何两个出现中不能在相同位置处使用同一个字符,即不会像无特殊条件产生大量的冗余模式,也不会像一次性条件忽略了感兴趣的模式。本文研究表明,无重叠条件下的序列模式挖掘具有更充分的研究价值和应用价值。  本文的主要研究内容和相关工作如下:  1.给出了无重叠条件下的序列模式挖掘问题的严格定义,分析现有的无重叠模式匹配算法INSgrow不能完备求解的原因,并且理论证明无重叠条件下的模式匹配可以求出完备解。  2.提出了模式匹配算法NETGAP,该算法采用网树结构,可以完备地求解出现,并在此基础上提出了三种挖掘算法,分别是广度优先挖掘算法NetMining-B,深度优先挖掘算法NetMining-D和采用了能够减少候选集的模式增长策略的NOSEP算法;  3.在DNA序列和时间序列上比较无特殊条件、一次性条件和无重叠条件的挖掘结果,证明无重叠条件更能挖掘出用户感兴趣的频繁模式。并通过大量的对比实验证明NOSEP算法的完备性和高效性。
其他文献
WebServices作为一种新的分布式计算技术,凭借其平台无关性、消息导向性和协议可组性等特点,从其一出现就迅速得到了工业界的青睐,并且形成了多个国际性组织研究和制定各种规范
该文基于作者在四川川大智胜软件股份有限公司实习期间参加的军航系统和其他民航系统的研发工作,主要介绍了空管自动化系统中系统监控模块中的若干关键技术.在以往成果的基础
该文在介绍了不同基因序列比对算法及其各自优缺点的基础上,针对Smith-Waterman算法着重分析了一些并行化方法,并结合集群式(Clustering)计算机系统提出了一种全新的并行优化
聚类问题一直是数据挖掘领域的一个重要研究方向。虽然传统的划分聚类算法方法简单、执行速度快且效率高,但是由于其迭代法和爬山法的本质,使得算法容易陷入局部最优而得不到全
随着Internet和企业计算的发展,其中最重要和基础的应用是Web应用。这带动了在服务器上集中商务逻辑的发展以及电子商务的普及。J2EE是Sun公司推出的一种利用Java2平台来简化
Internet主机的数目正以每两年增加3倍的速度增长,同样Internet流量正以每3个月增加1倍的速度增长,同时由于光纤技术和密集波分复用(DWDM)技术的发展使得链路传输速率已经基本
随着网络技术的发展和通信技术的进步,人与人的交流日趋频繁,由此视频会议系统成为研究的一个热点。本课题所开发的基于互联网的IP多播桌面视频会议系统采用TAPI和分布式组件技
移动代理是90年代中期刚刚兴起的一种分布式计算模型,目的是使程序的执行尽可能靠近数据,降低网络通讯开销,节省带宽,平衡负载,加快任务的执行,从而提高分布式系统的处理效率。CORB
近年来随着无线通信技术的快速发展,无线网络得到广泛应用。传统TCP协议由于不能区分丢包原因,将所有丢包原因都认为是网络拥塞,错误的启动拥塞控制,降低传输速率,严重影响吞
XML已经成为互联网上数据发布和数据交换的事实标准。然而由于其强大的数据表达能力,XML完全可以在互联网和数据库之间扮演更加重要的角色。XML是典型的半结构化数据,关系数据