【摘 要】
:
随着信息技术的高速发展和互联网的迅速普及,使得数据挖掘的使用越来越广泛。频繁模式挖掘就是数据挖掘领域中的一个重要分支,它主要是从序列文本中发现出现频繁的模式,它在
论文部分内容阅读
随着信息技术的高速发展和互联网的迅速普及,使得数据挖掘的使用越来越广泛。频繁模式挖掘就是数据挖掘领域中的一个重要分支,它主要是从序列文本中发现出现频繁的模式,它在文本检索、网络安全和各种数据流挖掘等领域都有着巨大的实际应用。本文研究的“满足One-Off条件及间隔约束的频繁模式挖掘”,是“带通配符的频繁模式挖掘”问题的一种,是基于传统的模式挖掘问题上的提高,它允许挖掘出的频繁模式中含有通配符。引入通配符虽然使问题变得复杂,但是模式形式更加灵活,这使得带通配符的频繁模式挖掘不仅具有理论研究价值,而且有着更加广泛的应用价值:它可以从生物序列中发现对生物学家有用的信息,也可以处理网络日志、入侵数据、购物数据等事务数据集中发现更灵活的模式。本文的主要工作如下:(1)OneOffMining算法满足One-off条件和Apriori性质,可以减少挖掘过程生成的候选项集,实验证明该算法相比单序列挖掘算法MPP有更好的时间性能,并且在多序列数据集上也有良好的效果。(2)本文将OneOffMining算法应用于生物序列模式挖掘,事务数据挖掘,以及文本挖掘等相关领域,展示其具有很强的实际应用价值。(3)最后给出一个课题网站系统设计,结合了该课题的一些研究的算法演示,包括本文的算法演示,为今后研究更加深入的研究提供一个平台。
其他文献
下一代万维网——语义Web自Tim Berners-Lee提出以来就得到了极大的重视。它是对万维网本质的变革,它的主要任务是使数据能被计算机自动地处理和理解。语义Web的核心——本体
质量管理、进度管理和投资管理是工程项目管理的主要工作内容,它们的目标既对立又统一。在进度管理的过程中,需要利用“甘特图”、“网络图”、“柱形图”、“折线图”等进度
随着互联网的快速发展,网络上的信息呈爆炸式增长,其中主观性文本占有的比例大大增加。如何从这些主观性文本中分析挖掘出作者的观点是一个迫切需要解决的问题。情感分类就是
随着计算机软件应用领域的扩大,越来越多的系统成为了遗留系统。如何更好地利用遗留系统来开发新的系统,正在成为当前软件工程研究的一个重要方向。软件再工程正是在这种情况下
文化遗址是研究古代历史、艺术和科学技术发展的极其重要的实物资料。一方面,这些年代久远的历史文化遗产随着时间的流逝正经受着相当程度的损害,亟需数字化保护。另一方面,要在
随着信息技术的迅速发展以及互联网的广泛深入,信息系统在人类社会中扮演着越来越重要的角色,而处于信息系统最底层的操作系统,是计算机资源的直接管理者,其安全问题是信息系
近年来,我国煤矿安全生产形势趋于好转,但安全事故时有发生,其中瓦斯事故是当前煤矿生产的主要灾害之一,已成为制约煤矿安全生产的重要因素,如何有效的监控煤矿井下瓦斯环境
独立分量分析(ICA)是一种非常有效的盲信号处理技术,其基本原理是通过分析多维观测数据间的高阶统计相关性,找出相互独立的隐含信息成分,完成分量间高阶冗余的去除及独立信源
随着Internet技术的迅速发展,网络不仅是人们获取信息的重要来源,也逐渐成为人们表达个人观点和分享自身体验的最佳平台,“阅读式的网络”逐步转变成“交互式的网络”。网络
目前我国的各个大学大都建立了校园网系统,但基本集中在web网站和BBS等应用上,而对于更深入的智能应用却比较少,像通过校园网实现在线无纸化办公、教学资源的共享、在线测评