DNA序列分段新算法及其在基因组分析中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:xiaoxu0911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量DNA测序时代的到来,越来越多生物的全基因组序列正逐渐展现于人们的眼前。如何从中挖掘有用的信息成为对当今生物学乃至整个科学领域的一个挑战。已有证据表明在大多数基因组序列中存在着核苷酸组成的突变点,通常组成上的突变蕴含着丰富的生物学意义。本论文主要致力于DNA序列分段新算法的开发研究,以及在基因组分析中的应用。 论文第一部分介绍了生物信息学发展的背景和主要研究内容,以及相关的生物学背景知识。同时,对生命科学研究的新趋势以及生物信息学的新方向也作了简单的介绍。 论文第二部分主要致力于DNA序列分段新算法的开发研究及应用。基于平方散度发展出的基因组段落化新算法,可以按核苷酸组成的不同将基因组或DNA序列精确划分成不同的区域,可广泛应用于Isochore图谱绘制,CpG岛检测,细菌/古细菌复制起始预测,基因编码区—非编码区边界的定位等方面。与基于Jensen-Shannon离散量构建的信息熵分段算法相比,新算法更为简单、快速,更适用于分析人类基因组和其他新测序的真核生物基因组序列。借助于累积GC轮廓图技术,将得到的分段点在图形上标注,从而可通过直观的形式来分析G+C含量和CpG岛、基因以及其它元件分布之间的关系。在基因组段落化的新算法和累积GC轮廓图技术的基础上,建立了交互式网上服务软件系统GC-Profile,可用于定量及定性的研究和分析原核及真核基因组的组织结构,有望成为分析高等真核生物基因组等GC组成区的恰当出发点和识别原核生物基因组岛的有力工具。 论文第三部分是围绕人类基因的短编码区识别问题展开的。在Z曲线理论的基础上,考虑密码子内部相邻碱基之间的近程相关性,将Z曲线参数进一步发展。基于所建立的数据库和标准评价指数,对包括马尔科夫模型在内的19种算法进行评价比较,结果发现Z曲线69参数和189参数在19种算法中识别准确率最高。
其他文献
羊草(Leymus chinensis)是多年生根茎型禾草,属于禾本科(Gramieae)赖草属(Leymus),是松嫩草地羊草草原的优势植物,是耐盐碱性较强的一种优质牧草,它的生态分布幅度很宽,能和獐毛(Aeluropus sinensis)、星星草(Puccinellia tenuiflora)碱蓬(Suaeda glauca)等耐盐碱性较强的植物组成混合群落。具有生产力高、耐干旱、耐贫瘠、耐
随着数字电视技术的发展,广播电视系统已经开始全面进行数字化。数字电视技术将带来广播电视运营体制管理方式以及用户收听收看方式的根本性变革,甚至对整个信息产业的发展产
现代无线通信系统中,衰落信道下不断增加的通信速率要求使得OFDM系统和调制分集技术越来越受关注。本论文主要就其二者的结合OFDM系统联合编码调制分集技术展开研究。衰落信
为了探讨上海浦东地区不同耕作制度对土壤甲螨群落结构的影响,笔者采用干漏斗法对2001年2月至2002年1月所采集的上海市浦东地区不同耕作制度下五块样地的土壤甲螨进行了提取,
中国聚变工程实验堆(CFETR)是我国自主设计和研制的重大科学工程,CFETR旨在与ITER相衔接和补充,为研制DEMO级别聚变堆电站提供必要的技术.蒙特卡罗方法在聚变中子学与屏蔽设