带通配符的多序列模式挖掘研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:chy006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘引起了信息产业界的极大关注。其主要原因是随着信息技术和互联网的快速发展,在各个应用领域的数据库中储存了大量可以广泛使用的数据,并且迫切需要将这些数据转换成有用的信息和知识。频繁模式挖掘应运而生,它是数据挖掘的一个重要组成部分,其主要任务是挖掘在数据集中频繁出现的模式。在现实世界中,许多应用包含的都是连续的序列和数据流,例如DNA和蛋白质序列等。但是,实际上各个事件是很少独立发生的,彼此之间密切相关。因此,对多序列结构的研究可以有效地帮助我们挖掘出那些至关重要的模式。本文主要研究的是“带通配符的多序列模式挖掘”。尽管目前已有的多序列模式挖掘算法中包含了通配符,但是这些算法受到字母表的制约,产生大量候选项集,时间与空间效率很差。本文将引入one-off条件,不但能够制约候选项集的规模,提高时间与空间性能,还能够使挖掘得到的模式更加灵活,具有更广泛的应用价值。鉴于此,本文的主要研究内容如下:(1)对频繁模式挖掘以及带通配符的频繁模式挖掘进行了探讨与研究。(2)提出了M-OneOffMine算法:此算法满足one-off条件、Apriori性质。在生物DNA序列上的实验证明,在多序列集上,在相同的问题环境下,M-OneOffMine算法比现有的MCPaS算法具有更好的时间性能。在两种算法挖掘的频繁模式的相似度高于80%的情况下,我们的算法能够挖掘到更多的频繁模式。在单序列集上,相较于MPP算法,不仅能够挖掘到更多的频繁模式,而且在时间消耗方面仅仅是MPP算法的1/2。(3)带通配符的频繁模式挖掘系统的设计与实现,主要展示了该课题的一些经典算法,为今后的学术交流以及研究提供了一个平台。
其他文献
近年来,随着车载设备、移动网络的高速发展,公民生活水平的不断提高,人们对车载播放设备的需求呼之欲出。本文选择了Android系统作为平台,设计研发了一套基于Android的车载多
随着多核处理器的广泛应用,内核之间有效同步问题成为并行编程的一个难题。传统的锁同步不能满足多线程编程的要求,事务存储作为一种共享资源同步的新模型被提出。因其具有较强
随着网络上信息量的飞速增加,怎样从巨大的信息宝库中有效地查找到符合用户需求的信息逐渐成为人们关注的焦点。在信息检索领域中,查询扩展是解决词语不匹配问题并提高检索效率
随着经济全球化的不断发展,跨语言交流的需求不断增长,使用机器翻译实现自然语言的自动翻译有很大的需求。近年来机器翻译技术不断进步,能够满足基本的翻译的需求,但是用户对翻译
测试和调试是保证软件质量的重要方法,目前,许多重要的测试和调试方法均以执行距离的度量为基础,然而现有的基于执行距离度量的调试和回归测试研究尚存在许多问题。在调试方面,基
数据挖掘技术是多种学科相结合的产物,它集合了数据库技术、人工智能、机器学习等多学科发展成果,是一种理论性和应用性都很强的技术。作为一门多学科综合应用技术,此项技术
社交网络分析、网络舆情发现等应用发展迅速,这些应用所基于的图结构规模也越来越大,在对图结构的研究中,对亿万个顶点级别的大规模图的处理能力的需求愈加迫切。因为如今图的规
WLAN无线网络覆盖设计的重要理论基础之一是室内无线信道的传播模型,在满足性能指标的要求下,还需考虑特定的外部电磁环境、用户分布、现场施工条件等诸多因素。因为目前在此
随着P2P网络技术的迅速发展和广泛应用以及移动网络环境的日趋成熟,互联网中的P2P网络技术已经开始向无线和移动设备扩展,并将在无线移动条件下获得较为深入的使用和发展。分布
浮雕是雕塑与绘画结合的产物,浮雕形式多样,从商代青铜器表面装饰纹,到汉代的画像石、画像砖,以及后来的碑刻、牌匾等,已经成为中国传统文化中的瑰宝。近年来,浮雕在城市美化环境中