反向重复序列和微型反向重复转座元件识别研究

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:sun4679
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
反向重复序列作为一种特殊模式的DNA序列,是多种DNA与RNA二级结构形成的基础。分布在基因中的反向重复序列,在基因转录、复制和扩增中经常会产生删除现象,导致基因的变异,从而对基因的多样性和生物进化有重要影响。微型反向重复转座元件是基因组中的一种小型转座元件,通过在基因组中不断转移影响基因的结构和功能,对mRNA转录物变化、新基因的出现以及基因组的多样性有着重要贡献。全面准确地识别基因组中的反向重复序列和微型反向重复转座元件有助于阐明其在基因组组织、基因结构和基因表达调控中的作用,并帮助我们加深对其起源、扩增机制和基因组进化的认识。  目前已有多种方法或工具用来识别DNA序列中的各种重复序列,但是能在全基因组水平上高效、准确地识别反向重复序列和微型反向重复转座元件的方法甚少。本文深入剖析已有识别方法的优劣,结合反向重复序列和微型反向重复转座元件的特征,提出能高效、准确识别基因组中这两种重复序列的新方法。本文主要研究内容包括:  1.反向重复序列识别算法设计  基于反向重复序列前后两部分序列的反向互补特征,设计一种新的识别算法,将核苷酸模式识别中传统的字符串比较方法转换成数值向量的运算和操作。算法主要内容包括:构建特定的映射规则将DNA字符序列映射到数值空间;建立数值打分系统,将序列的特征体现在分值上,通过预处理缩小搜索域;利用MATLAB在矩阵运算上的优势,通过向量化的计算方法识别目标序列,将反向重复序列识别过程并行化,使得单个步骤可以同时识别或鉴定多个序列。  2.基因组水平反向重复序列识别  本文利用多个已测序物种的基因组序列作为测试数据,识别其中的完美和不完美反向重复序列,并与现有工具方法进行比较。结果表明,本文提出的反向重复序列识别方法不仅在识别准确度和效率上都显著高于现有的方法和工具,而且能够处理现有其他方法或工具不能处理的大基因组序列。最后,本文对拟南芥全基因组的反向重复序列进行检测识别,并分析其在基因组不同区域中的分布。结果表明反向重复序列在基因组不同区域中的分布并不是随机的,这与多个已有研究发现的结果相吻合。  3.微型反向重复转座元件识别算法设计  基于微型反向重复转座元件的特征,本文建立了一套完整识别基因组中微型反向重复转座元件的新算法流程。算法主要包括:利用向量化的数值方法识别MITE-like结构序列;基于Lempel-Ziv序列复杂度过滤低复杂度序列;使用cd-hit方法对相似序列进行快速聚类;基于侧翼序列(Flanking Sequence)相似度对序列进行过滤。新方法能有效地识别所有具有完整MITE-like结构的序列,准确地过滤低复杂度序列,更高效地聚类符合要求的相似序列。  4.基因组水平微型反向重复转座元件识别  基于下一代测序技术产生的多物种完整基因组序列,本文应用新算法识别各基因组中蕴藏的微型反向重复转座元件,并与现有方法和相关数据库进行比较。结果表明本文提出的方法显著提高了识别准确性和效率,并且能够发现现有相关数据库中未包含但符合要求的序列,这些发现的新序列能有效补充并完善现有相应数据库。  利用本文提出的两种方法,可以有效地识别基因组中的反向重复序列和微型反向重复转座元件。有效地利用和分析这些识别结果,一方面可以帮助发掘潜藏在这些海量信息中的规律,另一方面可以有效地辅助生物实验的设计及特征功能的发现,从而促进对基因多样性和进化的研究。另外,提出的两种方法经过改进可以应用到基因组中其它相关重复序列的识别中,例如串联重复序列和其它类型转座元件等。最为重要的是,以上两种方法均是以数值运算为基础的算法,不同于核苷酸序列模式识别中传统的字符串搜索和比较算法。希望这种转换思想能触发计算生物学更多更具创新性的想法,将数字的计算、搜索和比较运用到DNA和RNA模式识别中,这可能更优于传统的字符串搜索和比较算法。
其他文献
电力变压器是电力系统中最重要的设备之一,其运行状态直接关系到整个电力系统的可靠性。在电力系统中变压器运行时出现故障的情况时有发生,对电力系统的正常运行造成了严重威胁。变压器故障诊断是根据故障特征来判断其故障类型、定位故障位置或者确定故障原因等,为变压器的检修提供智能化的决策。本文的主要工作包括:(1)对应用于电力变压器故障诊断的各种人工智能方法进行了深入研究,分析它们在电力变压器故障诊断中应用的特
转炉炼钢过程是一个周期性的升温、降碳、去杂质过程,包含非常复杂的多元、多相、高温反应。对转炉炼钢终点进行准确预测,用优化的炼钢工艺参数进行控制是合理组织生产、提高
本文结合移相控制和软开关的基本理论,对移相全桥直流变换器两种常用软开关技术:零电压开关(ZVS)和零电压零电流开关(ZVZCS)进行了对比分析,研究了在采用IGBT作为开关器件的大功率场合ZVZCS变换器的优点,并对几种具有代表性的全桥移相ZVZCS PWM DC/DC变换器的拓扑结构进行了综合分析,在此基础上本文研究了一种新型钳位馈能式高压大功率FB-ZVZCS PWM DC/DC变换器,通过在
小学语文复习课是对知识进行深层次加工和巩固的过程,小学低年级的学生年龄小,教师可以采用游戏的形式让复习课更高效。教师在拼音、生字词、词语、标点符号以及看图写画的复
在三维图像中,感兴趣目标(如解剖结构)的表面或边界面是一个非常重要的特征。通过抽取该类特征,我们可以对目标进行定量的测量与分析、交互操作、识别、追踪等处理。因此,感
随着科技的进步,人们对机器人的要求也越来越高,不仅要求机器人能够实现常规的PTP运动(点对点运动)和简单的CP运动(如直线运动和圆弧运动),而且还要能够沿着特定路径进行高速运
铁路运营线上的断轨现象,严重地威胁着铁路运行安全。随着高速铁路的快速发展,无缝钢轨在铁路上的应用越来越广泛,但是无缝钢轨的普及也带来了新的问题,钢轨内部的应力变化更