论文部分内容阅读
人类已经步入后基因组时代。随着对基因研究的不断深入,了解基因表达调控机制特别是转录调控机制的需求就显得尤为迫切起来。这是因为,基因是细胞生命活动的基础。在同一生物体内,每个细胞都有一套完全相同的基因组。但是在不同的条件下,基因的表达水平不尽相同,这种行为限定了细胞中的RNA组成,进而影响到最终所能产生出的全部蛋白质,从而决定了该细胞的功能。转录过程既是DNA翻译成蛋白质的关键一步,同时也是调控基因表达的关键阶段。转录调控通常是在转录起始步骤实现的。除了启动子以外,在几乎所有基因的上游区域中都还存在着激活基因所需的一段特定的DNA序列(转录因子结合位点)。这些序列本身并不执行任何功能,只有当其被调控蛋白(转录因子)识别、结合后才能发挥作用。它们共同控制着基因的转录。转录因子与其结合位点的结合具有高度的专一性。研究转录因子就是研究转录调控的分子机制,研究一类特定的蛋白质分子与DNA序列的结合特性,研究与DNA结合的蛋白质是如何调控基因转录等问题。因此,鉴别出全部与特定转录因子结合的DNA序列的特征,有助于对转录因子性质的进一步研究。目前,一些实验已经证实在真核细胞中,特别是在高等生物体内,在多数情况下转录因子并不是独自发挥作用,而是与其它转录因子协同作用,共同影响靶基因的表达。因此,对多转录因子协同DNA结合位点的研究正在成为一个新的亮点。利用现代分子生物学实验技术,例如凝胶阻滞实验、足迹法等,可以逐一鉴别出与特定转录因子结合的DNA序列片段。但是,单纯依靠这类技术来对几百个或上千条潜在的结合位点进行检测,科研人员将不得不付出极大的代价。因此,在基因组水平上对潜在的转录因子结合位点进行识别、筛选的生物信息学技术已经成为一项非常有效的辅助手段。不过在实际使用过程中,过度预测问题的存在已经严重地制约了这些算法的发展。在生物信息学领域中,人工神经网络、隐马氏模型已经成为解决序列分析和模式识别问题的重要工具之一。在文中,我们对转录因子结合位点预测算法的发展历程进行了回顾;讨论了人工神经网络、隐马氏模型应用于该领域时所具有的