带通配符和间隔约束的近似频繁模式挖掘研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:caozhi7963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着生物信息计算、网络入侵检测、文本检索等领域的发展,如何从序列数据中快速地提取用户感兴趣的、有意义的模式成为了一项关键的研究课题。对于已有的模式定义,最具挑战性的问题是发现带通配符和间隔约束的模式。在进行模式匹配和挖掘的过程中,允许模式在目标序列中的出现带有编辑误差能够使得问题更加满足实际应用需要,在生物信息学等领域有着实际的应用价值。本文针对带通配符和间隔约束的近似频繁模式挖掘展开研究。用户可以指定模式字符间通配符的间隔约束范围、以及允许出现的编辑误差。对该问题的研究,完善了模式匹配与挖掘问题的研究,而且在许多实际领域具备应用价值。本文的研究工作主要包括以下方面:(1)文本中字符分布特征和模式特征是传统模式匹配和挖掘问题的重要参数,有助于揭示问题求解复杂性。因此,以此为研究对象,本文建立了数学模型E(Ω)=n*D*π(P),其中Ω为模式精确出现数目,n为文本长度,D为模式中各通配符间隔gapi的乘积,π(P)为基于字符分布的模式出现概率。在人工随机数据和DNA真实数据上的实验表明,模型的预测误差率分别为1.8%-3.2%和4.7%-7.8%。本文同时揭示了在不同字符分布中,模式模长和通配符跨度对匹配数Ω的影响。因此,本文提出的统计模型可用于估计真实大文本中的模式出现数目,为模式挖掘问题中支持度的分析提供参考。(2)针对带通配符和间隔约束的近似模式匹配挖掘问题,本文提出了MARP (Mining Approximate Repeating Patterns with wildcards and gap lengths)算法。算法的核心工作包括两个组成部分:一,使用模式支持率度量模式出现的频繁程度,为此,本文给出了满足间隔约束的近似补偿序列的计算公式。基于此,本文给出了类Apriori性质,该性质可以对候选模式集进行有效的确定性剪枝,降低了候选模式集的规模并能够及时终止算法,从而提高了挖掘的效率;二,本文给了模式的近似出现的计算方法,该方法基于改进的动态规划编辑矩阵,在计算编辑距离时,能够同时考虑插入、删除和替换三种操作,能够有效的计算模式的近似出现数目,使得挖掘算法能够有效计算模式的支持度。实验部分分析了各种因素对算法性能的影响,并将算法应用于真实蛋白质序列模式挖掘中。与已有算法相比,MARP算法能够更加灵活的挖掘模式。
其他文献
在深入分析标准移动IP较常采用的平滑切换和快速切换方案及其存在的问题的基础上,提出了一种新的适用于在广域网范围内移动的移动IP无缝切换的优化方案,并利用OPNET仿真软件
随着计算机技术尤其是网络技术的发展,业务流程管理系统所面对的用户不再是某个企业或企业联盟,而是数目众多、层次不一的普通用户。这些普通用户常常提出个性化的要求,需要个性
在当今高速网络发展中,许多应用对网络提出了不同于简单数据应用的服务质量的要求,需要提供完善的QoS保证,如果希望给这些应用提供较好的服务质量,要求网络中的交换式路由器必须
学位
近年来,随着互联网的发展,人们可以获取的信息以指数的速度增长。一方面,为了便于管理如此庞大的信息,文本分类技术日益引起人们的关注。另一方面,对于特定的用户而言,所需要的信息
分类算法是机器学习、模式识别、数据挖掘等领域中研究和应用最广泛的一个重要课题。目前已知的分类算法中一种重要的基于统计方法的模型是贝叶斯分类模型,在贝叶斯分类模型中
本文系统地研究了敏捷(Agile)软件方法中的极限编程(XP)方法,讲解了XP的理论知识以及它的十二种实践方法,并且对十二种实践方法在实际系统中进行了研究与应用,还有对敏捷建模和
Web服务和对等网络是当前的热门技术。两者具有一定的互补性,因此可将这两项技术进行一定程度的整合。在P2P平台上实现Web服务不但可使Web服务分散,实现应用之间的松耦合;还
对于网络拥塞的控制,首先需要了解流量特性并建立准确的流量模型。传统的网络业务模型只能描述其短时相关性,研究发现网络流量具有长相关性,因而具有自相似性。FARIMA(p,d,q)