【摘 要】
:
在生物领域研究中,在巨量生物数据库中进行生物序列相似性查询是一项经常性的工作,在探索生物学知识和生命活动规律的过程中扮演着重要角色。然而在大型的长序列数据库中用朴
论文部分内容阅读
在生物领域研究中,在巨量生物数据库中进行生物序列相似性查询是一项经常性的工作,在探索生物学知识和生命活动规律的过程中扮演着重要角色。然而在大型的长序列数据库中用朴素的完全搜索方法来进行相似性查询,其效率是非常低下的。因此,研究者开始研究各种优化方式来提高查询效率。查询优化的关键技术之一就是建立索引。索引结构用一定的存储空间作为代价换取查询时的快速响应。良好的索引结构能有效组织生物序列数据,显著提高检索的速度。然而现有的方法存在一些问题,针对这些问题提出新的方法以提高查询效率是当前研究的热点。本文分析了当前的生物序列相似性查询的索引研究的现状,针对现有查询算法的不足,提出了新的基于索引的生物序列相似性查询算法BioIndex方法和SSQ MF算法,设计实现了转录调控序列数据挖掘系统ITREP。本文取得的主要研究成果如下:(1)提出了BioIndex索引结构及基于此结构的查询算法针对生物序列的最近邻查询问题,BioIndex索引结构及基于此的查询算法提供了一种有效的解决方式。该方法是在生物序列集中的序列模式挖掘的基础上建立索引,能有效控制索引结构的大小,使之能存储在内存中进行快速查询。实验结果表明,基于BioIndex的查询算法提高了生物序列查询的效率。(2)提出了基于多重索引结构进行过滤的序列相似性查询算法SSQ MF针对生物序列的范围查询问题,SSQ_MF算法通过建立三种不同的索引结构,形成三种过滤器进行过滤,使得算法过滤能力较基于单一过滤器算法进一步增强。SSQ_MF算法有效估计了各过滤器的过滤集大小,并构建了一个由过滤集大小确定的最优过滤顺序模型,大大降低了算法的过滤代价。实验结果表明,算法SSQ_MF的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法。(3)设计实现了转录调控序列数据挖掘系统ITREP转录调控是后基因组时代研究的热点之一。本文将上述方法应用于顺式调控元件(转录因子结合位点)的查询中,提高了查询的效率。为生物学家进行转录调控规律研究提供了良好的生物信息学工具。
其他文献
眼底血管造影图像能够反应出人体的多种病症信息,因此医生可以根据病人的眼底血管造影图像进行综合判断,从而达到病情的预防和诊治。然而,为了尽可能的获取高分辨率的眼底血管造
数据仓库是一个面向主题的、集成的数据集合,用来支持管理人员的决策。它维护着海量的数据并且支持形式复杂的查询,如何高效的管理如此之多的数据并提供高效的查询是数据仓库
随着计算机网络的迅速发展,出现了大量高带宽的网络应用,IP组播技术也随之显得愈加重要。虽然组播技术的发展为解决高带宽网络应用问题提供了可能,但却因为安全问题成了应用
伴随着互联网技术的发展和普及,Internet已渗透到了人们工作、生活、学习的各个领域,人们通过网络得到了不受时空限制的快捷、便利、高效的信息服务,但与此同时也带来了许多问题
在嵌入式系统中,存储系统差别很大,可包含多种类型的存储器件,如FLASH,SRAM,SDRAM,ROM等,这些不同类型的存储器件速度和宽度(位数)等各不相同;在访问存储单元时,可能采取平板
自从德国科学家伦琴在1895年发明X射线以来,CT、MRI、B超、电子内窥镜等现代医学影像设备逐渐出现,这使得传统的医学诊断方式发生了革命性的变化。使用计算机对医学影像设备采
随着无线通信和移动计算技术的发展以及越来越高的宽带接入要求,WMN(Wireless Mesh Network)技术受到了广泛的关注。然而WMN在设计之初,考虑的主要目标是快速便捷的组网和网
人类社会是整个自然界的一个特殊部分,众多学者从不同学科对人类社会进行了许多开创性的研究,试图从不同的角度理解人类社会的发展、运动规律。为了研究如此大规模系统的特性和规律,一种新的理论研究方法——复杂网络理论方法,得到极大的发展和应用。自从发现复杂网络具有小世界效应和无标度特征之后,复杂网络逐渐受到了来自科学各个领域研究者们越来越多的关注,成为了近年来科学界的一个研究热点。复杂网络描述方法是建立在对
由于在最优化、信号处理、图像处理、代数方程求解、模式识别和联想记忆等方面的广泛应用,人工神经网络得到了蓬勃发展。神经网络的信息处理能力取决于其动力学行为。因此,神
随着Web应用的日益广泛和Web开发技术的不断发展,开发者迫切需要一种能够简化开发过程,降低开发难度,提高开发效率的框架。目前在Web开发平台中人们使用最多的是J2EE。但随着