论文部分内容阅读
随着高通量DNA测序时代的到来,越来越多生物的全基因组序列正逐渐展现于人们的眼前。如何从中挖掘有用的信息成为对当今生物学乃至整个科学领域的一个挑战。已有证据表明在大多数基因组序列中存在着核苷酸组成的突变点,通常组成上的突变蕴含着丰富的生物学意义。本论文主要致力于DNA序列分段新算法的开发研究,以及在基因组分析中的应用。
论文第一部分介绍了生物信息学发展的背景和主要研究内容,以及相关的生物学背景知识。同时,对生命科学研究的新趋势以及生物信息学的新方向也作了简单的介绍。
论文第二部分主要致力于DNA序列分段新算法的开发研究及应用。基于平方散度发展出的基因组段落化新算法,可以按核苷酸组成的不同将基因组或DNA序列精确划分成不同的区域,可广泛应用于Isochore图谱绘制,CpG岛检测,细菌/古细菌复制起始预测,基因编码区—非编码区边界的定位等方面。与基于Jensen-Shannon离散量构建的信息熵分段算法相比,新算法更为简单、快速,更适用于分析人类基因组和其他新测序的真核生物基因组序列。借助于累积GC轮廓图技术,将得到的分段点在图形上标注,从而可通过直观的形式来分析G+C含量和CpG岛、基因以及其它元件分布之间的关系。在基因组段落化的新算法和累积GC轮廓图技术的基础上,建立了交互式网上服务软件系统GC-Profile,可用于定量及定性的研究和分析原核及真核基因组的组织结构,有望成为分析高等真核生物基因组等GC组成区的恰当出发点和识别原核生物基因组岛的有力工具。
论文第三部分是围绕人类基因的短编码区识别问题展开的。在Z曲线理论的基础上,考虑密码子内部相邻碱基之间的近程相关性,将Z曲线参数进一步发展。基于所建立的数据库和标准评价指数,对包括马尔科夫模型在内的19种算法进行评价比较,结果发现Z曲线69参数和189参数在19种算法中识别准确率最高。