一般间隙和长度约束的严格近似模式匹配

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:DUOFIPAUT8E
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式匹配(也称为串匹配)是计算机科学中基本问题之一,在诸多研究领域都有着十分广泛的应用。近年来具有间隙约束的模式匹配在音乐信息检索和序列模式挖掘中得到了应用。在模式匹配中,有的仅仅考虑最后一个模式子串在序列中匹配的位置,这种模式匹配称为宽松模式匹配;更为挑战性的问题是对每个模式串均考虑其在序列串中匹配的位置,而这种模式匹配称为严格模式匹配。严格模式匹配问题能够计算出在给定序列中某种模式的出现频度,进而判定该模式的频繁性,因此严格模式匹配问题是具有间隙约束的序列模式挖掘问题的核心工作之一。在具有间隙约束的模式匹配问题中模式P可以描述为p0[min0, max0]p1…[minj-1, maxj-1]pj…[minm-2, maxm-2]pm-1的形式,这里的minj-1和maxj-1分别描述字符pj-1和pj之间可以通配的最小和最大字符的数量,更为一般性的研究是模式P中的字符pj-1和pj之间的间隙值可以为负。目前模式匹配问题主要是针对精确模式匹配的,而在实际研究过程中更多情形属于近似模式匹配,因此与精确模式匹配相比,近似模式匹配是更为一般性的问题。  本文对更具有一般性的严格近似模式匹配进行研究,提出了Hamming距离下间隙约束值可以为负值的一般间隙以及长度约束的严格近似模式匹配问题。论文首先给出了该问题的形式化定义;在此基础上,证明了一个SAP问题实例可以转换为指数个对应精确模式匹配问题实例;论文将SAP问题转化为一棵子网树并运用子网树结构设计了一个有效的在线求解算法并证明了算法的完备性,并分析了SETA算法的时间复杂度和空间复杂度分别是O(m×Maxlen×W×d)和O(Maxlen×W×m2×n×d),这里的m, n, Maxlen, W和d分别表示的是模式串和序列串的长度,最大长度约束,模式P中最大间隙和近似度约束;最后,论文通过实验验证了影响SAP问题不同的参数对SETA算法的求解时间以及解大小的影响。大量的实验结果验证了SETA算法的正确性和有效性。
其他文献
企业步入信息化时代,企业的管理行为和管理模式如果不实行现代化、信息化,则企业很难在信息时代保持灵敏的嗅觉和高度的灵活性和高效性。企业管理信息化的最低要求是企业可以通
大部分的交通事故都是因为驾驶员超速行驶而引起的,加之这几年我国雾霾天气的逐渐加剧,更是对驾驶员准确、及时地识别限速标志产生很大的影响。因此,雾霾天气下限速标志识别
  本文讨论了XML较其它半结构化模型的优势,以及现有的基于XML的Web数据抽取技术,考虑到HTML页面的特点,引入了采用基本项方式描述的页面树,给出了将HTML文档转换为XML文档的基
随着微电子技术、传感技术、通信技术以及嵌入式技术等学科的发展,集信息传感、数据处理、GPS定位以及网络通信功能于一体的无线传感器网络由于自身的突出特性近年来已经被广
匿名通信的一个重要目的就是隐藏通信双方的身份或通信关系,从而实现对网络用户的个人通信隐私及对涉密通信的更好的保护。而匿名通信系统中所有的安全防御技术都是针对具体
近几十年来,医学影像设备在临床辅助诊断中的作用越来越突出,越来越多的医学影像设备产生了大量的医学图像数据。为此,各个医疗机构纷纷采用计算机归档、传输和处理医学影像
随着Java、J2EE 技术的日渐成熟,我国金融行业在严格考查J2EE技术及其工具的可行性后,将其外围应用开发采用J2EE 技术实现。本文所依托的项目是交通银行上海总行的大集中项目
过程层析成像(PT)技术是近年来飞速发展起来的一门新技术,该技术在解决多相流检测问题上有巨大的发展潜力和广阔的工业应用前景。电容层析成像(ECT)技术是基于电容敏感机理的
随着Internet技术的发展,电子商务迅速普及,应用日益广泛,成为当前信息领域的研究热点之一。目前大多数电子商务的应用在处理购买者、供应商的方式上各不相同,如何将这些应用以方
文本分类是指分析文本内容并按一定的策略把文本归入一个或多个合适的类别的应用技术。随着Internet的出现,大量的文字信息开始以计算机可读的形式存在,以传统的手工方式对这