频繁模式挖掘技术的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:ljj35wmsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人们在日常事务处理和科学研究中积累了大量宝贵的数据。如何从中提取或挖掘用户所需要的信息,是当前信息科学和技术领域面临的一大挑战。关联规则(association rules)挖掘在数据领域是一个重要的研究内容,而频繁模式挖掘是产生关联规则的第一步。其研究内容一般包括事务、序列、树和图。其方法被广泛应用于许多其它数据挖掘任务中,如相关性分析,周期分析,最大模式,闭合模式,查询,分类,索引等等。由于问题本身的基础性和内在复杂性,频繁模式挖掘方法成为许多研究者关注的课题。 本文对频繁模式挖掘相关技术进行了研究。重点研究了以下几个问题:基于互关联后继矩阵的区间频繁模式挖掘方法;基于位图(BitVector)频繁模式挖掘算法;基于表构投影模型(ProTable)的频繁闭合模式挖掘算法及相关的实现技术等。本文研究内容和创新工作主要包括以下三个方面: 1)基于IRSM模型的区间频繁模式挖掘方面互关联后继矩阵模型是一种新型的全文存储索引模型。这种模型充分利用了字符序列的有序性和冗余性,适用于海量的全文存储和索引。其优势在于:既是全文索引模型,又是全文存储模型;对任意一全文都能构造其互关联后继矩阵,同时对于互关联后继矩阵,也能还原其对应的原文;具有极佳的空间效率;具有领域独立性和查询的完备性。本文扩展了互关联后继矩阵的应用领域,首次提出一种基于互关联后继矩阵模型的频繁模式挖掘算法。其优点在于:挖掘任务只局部关联于后继矩阵的一行,有较好的可扩展性;算法简单容易理解;具有与FP-Growth算法相当甚至更高的效率。 2)基于位图的频繁模式挖掘方法在通常的水平数据布局的频繁模式挖掘算法的基础上,本文提出一种垂直数据布局的频繁模式挖掘算法即基于位图模型的频繁模式挖掘算法BitVector。采用0,1的形式来表示该项是否存在,并且巧妙地采用了RLE压缩技术,等价类思想和混合遍历的方法。该算法无论在空间和时间效率上对于特定的数据集都有较好的效率。 3)基于表构投影模型的闭合频繁模式方法频繁闭合模式提供了完全频繁模式的所有信息,但数量却可以少几个数量级。本文给出一种基于ProTable的算法特点是:只需要扫描一遍事务库;该二维矩阵模型结构简单,利用代数运算来生成闭合频繁项集。与FP-Close算法相比较,在稠密数据集上ProTable有较好的效率。
其他文献
本文介绍了一种基于三星32位嵌入式网络微处理器S3C4510B的网络监控系统,主要实现了故障检测与自动定位、流量统计和入侵检测三个基本的网络管理功能。在系统的设计中,采用集中
电信运营企业是高技术密集型企业,也是较早使用数据库和数据库管理系统的企业,在多年的运营中积累了大量的历史数据。同时现在电信行业的竞争正变得越来越激烈,如何拓展市场,如何
在互联网这个信息海洋中,人们越来越感到信息的泛滥和查找的艰辛,于是用户便希望拥有一块根据自己的需要而显示相应信息的“私人空间”,基于用户的需求和自身发展的需要,向用户提
随着移动互联网的发展,智能移动终端的安全问题也益发严峻,作为最主流的移动操作系统之一,Android以其开放性和实用性获得了广泛的应用市场,但作为一个注重功能的系统,Android的安
当今互联网搜索引擎主要分为通用搜索引擎和面向领域的搜索引擎(也称为垂直搜索引擎),而后者又成为搜索引擎技术发展的一大趋势。因为在某些用户有特定要求的领域,通用搜索引
随着网络信息化的高速发展,网络中的可用Web服务资源日渐增多,通过Web服务集成可以充分利用已有资源,实现面向网络化、跨地域和异构平台的系统功能的一体化。但是,Web服务无法高
随着社会的不断进步和网络技术的不断发展,互联网用户和互联网站数量都在不断的增长。对网络服务器的可用性、可扩展性和安全性的要求越来越高。传统的单服务器模式,已经不能满
在多Agent系统理论中,为了尽可能细致的刻画Agent合理的行为能力,人们提出了合作的概念。其中,最为自然的一种合作形式就是联合,即系统中Agent个体保持和团体完全相同的价值
在信息和知识经济时代伴随着计算机技术和网络技术的不断发展,企业纷纷建立自己的商务网站,开展电子商务活动,日积月累网站上生成了大量的与客户有关的记录信息,这些信息对企业来
随着Internet的发展,互联网络环境下的信息安全由于涉及到国家安全和社会稳定,已日益受到各国政府部门和社会各界的重视。信息安全的关键内容是密码技术,而密码技术的核心则