带通配符和间隔约束的近似频繁模式挖掘研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：caozhi7963

【摘要】

：

近年来,随着生物信息计算、网络入侵检测、文本检索等领域的发展,如何从序列数据中快速地提取用户感兴趣的、有意义的模式成为了一项关键的研究课题。对于已有的模式定义,最

【作者】

：

项泰宁

【机构】

：

合肥工业大学

【出处】

：

合肥工业大学

【发表日期】

：

2014年期

【关键词】

：

通配符间隔约束期望模型频繁模式近似模式挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着生物信息计算、网络入侵检测、文本检索等领域的发展,如何从序列数据中快速地提取用户感兴趣的、有意义的模式成为了一项关键的研究课题。对于已有的模式定义,最具挑战性的问题是发现带通配符和间隔约束的模式。在进行模式匹配和挖掘的过程中,允许模式在目标序列中的出现带有编辑误差能够使得问题更加满足实际应用需要,在生物信息学等领域有着实际的应用价值。本文针对带通配符和间隔约束的近似频繁模式挖掘展开研究。用户可以指定模式字符间通配符的间隔约束范围、以及允许出现的编辑误差。对该问题的研究,完善了模式匹配与挖掘问题的研究,而且在许多实际领域具备应用价值。本文的研究工作主要包括以下方面：(1)文本中字符分布特征和模式特征是传统模式匹配和挖掘问题的重要参数,有助于揭示问题求解复杂性。因此,以此为研究对象,本文建立了数学模型E(Ω)=n*D*π(P),其中Ω为模式精确出现数目,n为文本长度,D为模式中各通配符间隔gapi的乘积,π(P)为基于字符分布的模式出现概率。在人工随机数据和DNA真实数据上的实验表明,模型的预测误差率分别为1.8%-3.2%和4.7%-7.8%。本文同时揭示了在不同字符分布中,模式模长和通配符跨度对匹配数Ω的影响。因此,本文提出的统计模型可用于估计真实大文本中的模式出现数目,为模式挖掘问题中支持度的分析提供参考。(2)针对带通配符和间隔约束的近似模式匹配挖掘问题,本文提出了MARP (Mining Approximate Repeating Patterns with wildcards and gap lengths)算法。算法的核心工作包括两个组成部分：一,使用模式支持率度量模式出现的频繁程度,为此,本文给出了满足间隔约束的近似补偿序列的计算公式。基于此,本文给出了类Apriori性质,该性质可以对候选模式集进行有效的确定性剪枝,降低了候选模式集的规模并能够及时终止算法,从而提高了挖掘的效率；二,本文给了模式的近似出现的计算方法,该方法基于改进的动态规划编辑矩阵,在计算编辑距离时,能够同时考虑插入、删除和替换三种操作,能够有效的计算模式的近似出现数目,使得挖掘算法能够有效计算模式的支持度。实验部分分析了各种因素对算法性能的影响,并将算法应用于真实蛋白质序列模式挖掘中。与已有算法相比,MARP算法能够更加灵活的挖掘模式。

其他文献

移动IP无缝切换技术的研究

在深入分析标准移动IP较常采用的平滑切换和快速切换方案及其存在的问题的基础上,提出了一种新的适用于在广域网范围内移动的移动IP无缝切换的优化方案,并利用OPNET仿真软件

学位

移动IP无缝切换平滑切换快速切换

一种智能流程异常处理机制研究

随着计算机技术尤其是网络技术的发展，业务流程管理系统所面对的用户不再是某个企业或企业联盟，而是数目众多、层次不一的普通用户。这些普通用户常常提出个性化的要求，需要个性

学位

智能流程异常处理机制元流程

基于Crossbar变换路由器的QoS策略研究

在当今高速网络发展中，许多应用对网络提出了不同于简单数据应用的服务质量的要求，需要提供完善的QoS保证，如果希望给这些应用提供较好的服务质量，要求网络中的交换式路由器必须

学位

Crossbar交换结构服务质量M/M/S模型排队规则调度算法QoS

基于SVM的多示例多标签网页分类

学位

基于主题和态度分类的文本过滤系统

近年来，随着互联网的发展，人们可以获取的信息以指数的速度增长。一方面，为了便于管理如此庞大的信息，文本分类技术日益引起人们的关注。另一方面，对于特定的用户而言，所需要的信息

学位

文本分类态度分类内容过滤倾向性分析

基于WEKA平台的贝叶斯分类器的扩展

分类算法是机器学习、模式识别、数据挖掘等领域中研究和应用最广泛的一个重要课题。目前已知的分类算法中一种重要的基于统计方法的模型是贝叶斯分类模型，在贝叶斯分类模型中

学位

机器学习数据挖掘贝叶斯分类线性高斯分布Logistic分布选择性集成分类算法

敏捷（Agile）软件开发方法在电子商务进销存管理系统中的研究与应用——极限编程（XP）

本文系统地研究了敏捷(Agile)软件方法中的极限编程(XP)方法，讲解了XP的理论知识以及它的十二种实践方法，并且对十二种实践方法在实际系统中进行了研究与应用，还有对敏捷建模和

学位

电子商务进销存管理系统敏捷软件极限编程

基于对等网络的Web服务模型研究

Web服务和对等网络是当前的热门技术。两者具有一定的互补性,因此可将这两项技术进行一定程度的整合。在P2P平台上实现Web服务不但可使Web服务分散,实现应用之间的松耦合;还

学位

对等网络Web服务Web服务发现访问控制基于角色的访问控制模型

基于分数阶PI<'λ>D<'μ>的网络拥塞控制

对于网络拥塞的控制,首先需要了解流量特性并建立准确的流量模型。传统的网络业务模型只能描述其短时相关性,研究发现网络流量具有长相关性,因而具有自相似性。FARIMA(p,d,q)

学位

拥塞控制FARIMA模型分数阶PI~λD~μ控制器

分布式网络和服务级管理系统结构研究

学位

网络管理网络管理服务级管理系统服务级管理系统分布式计算分布式计算公共对象请求代理公共对象请求代理体系结构体系结构可扩展标识语言可扩展标识语言访问协议

带通配符和间隔约束的近似频繁模式挖掘研究

其他学术论文