带通配符的多序列模式挖掘研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：chy006

【摘要】

：

近年来，数据挖掘引起了信息产业界的极大关注。其主要原因是随着信息技术和互联网的快速发展，在各个应用领域的数据库中储存了大量可以广泛使用的数据，并且迫切需要将这些数据转

【作者】

：

马晓文

【机构】

：

合肥工业大学

【出处】

：

合肥工业大学

【发表日期】

：

2013年期

【关键词】

：

频繁模式挖掘多序列通配符间隔约束 one-off条件

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，数据挖掘引起了信息产业界的极大关注。其主要原因是随着信息技术和互联网的快速发展，在各个应用领域的数据库中储存了大量可以广泛使用的数据，并且迫切需要将这些数据转换成有用的信息和知识。频繁模式挖掘应运而生，它是数据挖掘的一个重要组成部分，其主要任务是挖掘在数据集中频繁出现的模式。在现实世界中，许多应用包含的都是连续的序列和数据流，例如DNA和蛋白质序列等。但是，实际上各个事件是很少独立发生的，彼此之间密切相关。因此，对多序列结构的研究可以有效地帮助我们挖掘出那些至关重要的模式。本文主要研究的是“带通配符的多序列模式挖掘”。尽管目前已有的多序列模式挖掘算法中包含了通配符，但是这些算法受到字母表的制约，产生大量候选项集，时间与空间效率很差。本文将引入one-off条件，不但能够制约候选项集的规模，提高时间与空间性能，还能够使挖掘得到的模式更加灵活，具有更广泛的应用价值。鉴于此，本文的主要研究内容如下：（1）对频繁模式挖掘以及带通配符的频繁模式挖掘进行了探讨与研究。（2）提出了M-OneOffMine算法：此算法满足one-off条件、Apriori性质。在生物DNA序列上的实验证明，在多序列集上，在相同的问题环境下，M-OneOffMine算法比现有的MCPaS算法具有更好的时间性能。在两种算法挖掘的频繁模式的相似度高于80%的情况下，我们的算法能够挖掘到更多的频繁模式。在单序列集上，相较于MPP算法，不仅能够挖掘到更多的频繁模式，而且在时间消耗方面仅仅是MPP算法的1/2。（3）带通配符的频繁模式挖掘系统的设计与实现，主要展示了该课题的一些经典算法，为今后的学术交流以及研究提供了一个平台。

其他文献

基于Android的车载多媒体系统研究与实现

近年来,随着车载设备、移动网络的高速发展,公民生活水平的不断提高,人们对车载播放设备的需求呼之欲出。本文选择了Android系统作为平台,设计研发了一套基于Android的车载多

学位

Android平台车载多媒体系统移动终端权限控制

基于CMP的硬件事务存储系统优化技术研究

随着多核处理器的广泛应用，内核之间有效同步问题成为并行编程的一个难题。传统的锁同步不能满足多线程编程的要求，事务存储作为一种共享资源同步的新模型被提出。因其具有较强

学位

多核处理器硬件事务存储冲突检测并发控制

基于信任网络的查询扩展技术研究

随着网络上信息量的飞速增加，怎样从巨大的信息宝库中有效地查找到符合用户需求的信息逐渐成为人们关注的焦点。在信息检索领域中，查询扩展是解决词语不匹配问题并提高检索效率

学位

查询扩展信息检索信任网络信任计算

基于混淆网络的机器翻译系统融合技术研究

随着经济全球化的不断发展，跨语言交流的需求不断增长，使用机器翻译实现自然语言的自动翻译有很大的需求。近年来机器翻译技术不断进步，能够满足基本的翻译的需求，但是用户对翻译

学位

机器翻译系统融合混淆网络融合候选排序

基于执行距离度量的软件调试与测试优化技术研究

测试和调试是保证软件质量的重要方法，目前，许多重要的测试和调试方法均以执行距离的度量为基础，然而现有的基于执行距离度量的调试和回归测试研究尚存在许多问题。在调试方面，基

学位

软件调试软件测试执行距离错误定位回归测试

文本聚类算法的参数设置问题研究

数据挖掘技术是多种学科相结合的产物,它集合了数据库技术、人工智能、机器学习等多学科发展成果,是一种理论性和应用性都很强的技术。作为一门多学科综合应用技术,此项技术

学位

数据挖掘技术文本聚类算法参数设置K-Means算法

分布式环境下大规模图数据上距离查询研究

社交网络分析、网络舆情发现等应用发展迅速，这些应用所基于的图结构规模也越来越大，在对图结构的研究中，对亿万个顶点级别的大规模图的处理能力的需求愈加迫切。因为如今图的规

学位

分布式计算大规模图Hadoop社交网络

面向WLAN室内AP部署的衰减因子传播模型参数校正研究与实践

WLAN无线网络覆盖设计的重要理论基础之一是室内无线信道的传播模型,在满足性能指标的要求下,还需考虑特定的外部电磁环境、用户分布、现场施工条件等诸多因素。因为目前在此

学位

WLAN无线网络室内无线信道传播模型衰减因子参数校正

基于结点能力和资源索引的MP2P资源定位方法

随着P2P网络技术的迅速发展和广泛应用以及移动网络环境的日趋成熟，互联网中的P2P网络技术已经开始向无线和移动设备扩展，并将在无线移动条件下获得较为深入的使用和发展。分布

学位

移动对等网络资源定位结点能力资源索引可信度

唐卡图像浮雕效果生成

浮雕是雕塑与绘画结合的产物，浮雕形式多样，从商代青铜器表面装饰纹，到汉代的画像石、画像砖，以及后来的碑刻、牌匾等，已经成为中国传统文化中的瑰宝。近年来，浮雕在城市美化环境中

学位

三维重建唐卡图像浮雕生成计算机绘制技术模板匹配

带通配符的多序列模式挖掘研究

其他学术论文