论文部分内容阅读
在过去的几年中,已经完成了多个物种基因组的测序计划,对这些已经完整测序的基因组进行详细的注释变得越来越重要,而识别核心启动子是基因组注释中最具挑战性的工作之一。核心启动子包含了指导转录起始所必需的DNA序列,因此识别核心启动子是我们理解转录调控机制的重要方面,也是研究基因表达模式和构建基因调控网络的必要步骤。 现有的识别核心启动子的实验方法价格昂贵、耗时长,而且通常不能识别没有转录活性的启动子,因此研究者开始探索使用计算机从头预测的方法在指定的基因组序列上定位启动子区域。目前已经提出了多种启动子预测方法,但是由于启动子序列变化多样,现有方法在基因组范围内的预测精度仍然不能满足要求。主要是因为现有方法提取的特征不能有效地区分启动子序列和非启动子序列;另一方面,没有考虑转录开始位点簇对预测结果的影响。 针对以上问题,本文提出了一种基于DNA结构特性谱的Markov链模型,使用统计模型对启动子和非启动子序列进行建模,以更好地区分启动子和非启动子。本文利用结构特性区域平均值谱与 TSS簇的相关关系提出了一种初步定位可能TSS簇区域的算法,然后在这些区域内,对预测位点的得分进行加权,从而抵消邻近位点的干扰,提高预测算法整体的效果。 实验结果表明:本文的方法优于EP3和ProSOM,具有较强的泛化能力,能在检出率和正确率上达到良好的平衡,取得最佳的总体性能;另外,本文的方法在不同的染色体上的效果都是一致的,这说明本文的方法具有较强的稳定性。