论文部分内容阅读
反向重复序列作为一种特殊模式的DNA序列,是多种DNA与RNA二级结构形成的基础。分布在基因中的反向重复序列,在基因转录、复制和扩增中经常会产生删除现象,导致基因的变异,从而对基因的多样性和生物进化有重要影响。微型反向重复转座元件是基因组中的一种小型转座元件,通过在基因组中不断转移影响基因的结构和功能,对mRNA转录物变化、新基因的出现以及基因组的多样性有着重要贡献。全面准确地识别基因组中的反向重复序列和微型反向重复转座元件有助于阐明其在基因组组织、基因结构和基因表达调控中的作用,并帮助我们加深对其起源、扩增机制和基因组进化的认识。 目前已有多种方法或工具用来识别DNA序列中的各种重复序列,但是能在全基因组水平上高效、准确地识别反向重复序列和微型反向重复转座元件的方法甚少。本文深入剖析已有识别方法的优劣,结合反向重复序列和微型反向重复转座元件的特征,提出能高效、准确识别基因组中这两种重复序列的新方法。本文主要研究内容包括: 1.反向重复序列识别算法设计 基于反向重复序列前后两部分序列的反向互补特征,设计一种新的识别算法,将核苷酸模式识别中传统的字符串比较方法转换成数值向量的运算和操作。算法主要内容包括:构建特定的映射规则将DNA字符序列映射到数值空间;建立数值打分系统,将序列的特征体现在分值上,通过预处理缩小搜索域;利用MATLAB在矩阵运算上的优势,通过向量化的计算方法识别目标序列,将反向重复序列识别过程并行化,使得单个步骤可以同时识别或鉴定多个序列。 2.基因组水平反向重复序列识别 本文利用多个已测序物种的基因组序列作为测试数据,识别其中的完美和不完美反向重复序列,并与现有工具方法进行比较。结果表明,本文提出的反向重复序列识别方法不仅在识别准确度和效率上都显著高于现有的方法和工具,而且能够处理现有其他方法或工具不能处理的大基因组序列。最后,本文对拟南芥全基因组的反向重复序列进行检测识别,并分析其在基因组不同区域中的分布。结果表明反向重复序列在基因组不同区域中的分布并不是随机的,这与多个已有研究发现的结果相吻合。 3.微型反向重复转座元件识别算法设计 基于微型反向重复转座元件的特征,本文建立了一套完整识别基因组中微型反向重复转座元件的新算法流程。算法主要包括:利用向量化的数值方法识别MITE-like结构序列;基于Lempel-Ziv序列复杂度过滤低复杂度序列;使用cd-hit方法对相似序列进行快速聚类;基于侧翼序列(Flanking Sequence)相似度对序列进行过滤。新方法能有效地识别所有具有完整MITE-like结构的序列,准确地过滤低复杂度序列,更高效地聚类符合要求的相似序列。 4.基因组水平微型反向重复转座元件识别 基于下一代测序技术产生的多物种完整基因组序列,本文应用新算法识别各基因组中蕴藏的微型反向重复转座元件,并与现有方法和相关数据库进行比较。结果表明本文提出的方法显著提高了识别准确性和效率,并且能够发现现有相关数据库中未包含但符合要求的序列,这些发现的新序列能有效补充并完善现有相应数据库。 利用本文提出的两种方法,可以有效地识别基因组中的反向重复序列和微型反向重复转座元件。有效地利用和分析这些识别结果,一方面可以帮助发掘潜藏在这些海量信息中的规律,另一方面可以有效地辅助生物实验的设计及特征功能的发现,从而促进对基因多样性和进化的研究。另外,提出的两种方法经过改进可以应用到基因组中其它相关重复序列的识别中,例如串联重复序列和其它类型转座元件等。最为重要的是,以上两种方法均是以数值运算为基础的算法,不同于核苷酸序列模式识别中传统的字符串搜索和比较算法。希望这种转换思想能触发计算生物学更多更具创新性的想法,将数字的计算、搜索和比较运用到DNA和RNA模式识别中,这可能更优于传统的字符串搜索和比较算法。