编辑距离下具有间隙约束的近似模式匹配

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:hnlh007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式匹配问题在计算机科学中出现的最早且人们对它的研究也最广泛,随着需要处理的文本规模越来越大,在文本中进行的搜索越来越复杂,模式和文本之间可以有某些细小不同的近似模式匹配问题得到了广泛的应用。但对具有间隙约束的近似模式匹配问题的研究目前尚未成熟,因此,论文针对此问题展开研究和实现。论文将目标问题分成两个方面进行具体的研究以及方法实现。一是字符串的近似匹配问题,二是模式之间存在间隙约束的匹配问题。在字符串的近似匹配方面,论文首先对基本字符串匹配的一些相关知识进行了介绍,包括字符串匹配的概念以及传统字符串匹配的方法。接着对近似串的匹配方法进行了研究,包括:动态规划方法、基于自动机的方法、位并行方法以及基于文本过滤的方法。通过对这四种方法进行研究和对比,本文将动态规划方法作为近似串匹配的主要方法,将编辑距离模型作为衡量字符串相似度的模型,并对编辑距离矩阵的建立以及字符串之间编辑距离的计算进行了方法实现。在具有间隙约束的模式匹配方面,本文首先对文本串进行了预处理,将文本串保存为纯文本文档的形式,利用Lucene对纯文本文档建立倒排索引的方式为文本串中的每个字符串建立索引,这种索引包含了该字符串所有的出现位置及出现次数,然后在索引基础上通过Lucene中SpanNearQuery的搜索机制对具有间隙约束的模式串进行搜索。此方法摒弃了普通顺序方法因文本过大而造成的匹配时间代价高的缺陷,大大提高了匹配效率。最后,论文将此方法和普通的顺序匹配算法进行了对比,在保证相同文本、相同模式和相同匹配结果的情况下,经过大量实验以及对实验结果的分析,得出当文本较大且不易变动时,本算法以合理的空间消耗换取了时间的绝对性缩减,比普通顺序算法有明显的优势。
其他文献
该文讨论的是基于软件产品线技术的数控软件产品集成.数控机床种类千变万化,同一种类机床的不同规格系列也不尽相同,这导致了控制每种机床的软件产品也是多种多样的.然而数控
本文对分布式控制系统的发展现状和基于现场总线的发电厂升压站自动化系统的应用前景进行了分析,提出了现场总线和以太网相结合的升压站自动化系统的设计方案,并对相关技术进
随着关系数据库系统功能不断的扩大与完善,为数据库厂商在数据库系统的管理方面不断提出新的课题.数据库管理系统是为数据库的建立、使用和维护而配置的软件.它建立在操作系
当今信息爆炸的社会环境中,人们对信息处理分析的要求和关注正在与日俱增。因此,各种高效的数据信息处理工具成为当前信息技术领域的研究热点。 现有工具中,OLAF实现对多维数
随着因特网技术的逐渐普及,传统的教学模式也发生了重大变革,目前已有一些基于因特网技术的教学模式在实际教学中得到应用,网络化教学已成为教育的发展趋势.本文分析了网络教
GIS,近年来已经从不为大众所知的专用系统,渐渐的走向广大的用户群。继前几年WebGIS的迅速发展后,MobileGIS成为了其应用发展的又一热点。而随着无线通信领域近年来的飞速发展,目
随着计算机软硬件的发展,计算机广泛应用于工程设计、机械制造等领域,人们对计算机在工程设计、绘图、分析与文档制作等方面的应用提出了更高的要求,计算机辅助设计技术CAD随之
本文分析了ASM组播模型过于开放的特性所导致的一系列安全问题,从中选取最急需解决的群组发送者和群组接收者访问控制问题作为研究内容,设计和实现了一个组播服务管理和控制系
VOD系统是大量多媒体应用系统中的一种关键技术。大规模VOD系统中的资源有效利用问题非常突出,海量数据传输使得网络I/O带宽和服务器磁盘I/O带宽成为系统的瓶颈。视频点播流调度
随着Internet的飞速发展,World Wide Web已经发展成为全球传播与共享科研、教育、商业和社会生活等方面最重要和最具潜力的信息资源。而以HTML标记语言发布的Web信息面向显示,